<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/NLP/NLP-2025/Lectute-2/Lectute_2_Vectorization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# Глава 2. Управление данными и векторизация в NLP

В этой главе мы погрузимся в критически важные аспекты подготовки текстовых данных для задач обработки естественного языка (NLP). Эффективное управление данными и их преобразование в числовой формат являются основой для успешного обучения любой NLP-модели. Мы рассмотрим методы сбора, разметки, аугментации данных, а также способы работы с несбалансированными выборками и предотвращения утечки данных. Особое внимание будет уделено различным методам векторизации текста — от простых подходов до современных векторных представлений слов.



## §1. Сбор текстовых данных: Полное руководство

Сбор текстовых данных является краеугольным камнем любого проекта в области обработки естественного языка (NLP). Качество, релевантность, объём и репрезентативность собранных данных напрямую влияют на успех последующих этапов — обучения, валидации и применения NLP-моделей. Этот процесс требует тщательного планирования и включает определение подходящих источников информации, выбор эффективных методов её извлечения и принятие решения о наиболее оптимальных форматах для хранения, предобработки и анализа.



### 1. Источники данных

Выбор источников текстовых данных должен быть тесно связан с конкретными целями и задачами вашего NLP-проекта. Разнообразие доступных источников позволяет адаптировать подход к сбору данных под широкий спектр применений.

#### 1.1. Веб-страницы  
Интернет представляет собой колоссальное и постоянно растущее хранилище текстовой информации, доступное для сбора.

- **Новостные порталы и блоги**:  
  Эти источники предоставляют актуальную информацию о текущих событиях, общественном мнении и трендах. Они идеально подходят для обучения систем суммаризации текста, анализа новостного потока, определения тональности и извлечения ключевых сущностей. Язык здесь обычно формальный или полуформальный.

- **Форумы и социальные сети**:  
  Эти платформы являются богатейшим источником неформального языка, сленга, диалектов, пользовательских мнений и интерактивных дискуссий. Они незаменимы для задач анализа настроений (sentiment analysis), обнаружения спама, изучения особенностей разговорной речи, а также для создания и обучения чат-ботов и систем поддержки клиентов. При работе с данными из социальных сетей крайне важно учитывать строгие ограничения, налагаемые API платформ, и неукоснительно соблюдать политику конфиденциальности пользователей и законодательство о защите персональных данных.

- **Электронные книги и научные статьи**:  
  Эти источники характеризуются высокой степенью структурированности, качеством текста и часто проходят рецензирование. Они идеально подходят для задач извлечения информации (Information Extraction), построения обширных баз знаний, а также для обучения моделей, предназначенных для специализированных доменов (например, медицина, юриспруденция, инженерия), где требуется глубокое понимание специфической терминологии и концепций.

- **Сайты электронной коммерции (отзывы, описания товаров)**:  
  Отзывы покупателей, подробные описания продуктов, вопросы и ответы могут быть использованы для разработки систем рекомендаций, глубокого анализа потребительского поведения, автоматической классификации товаров, выявления часто встречающихся проблем или преимуществ продуктов.


#### 1.2. Базы данных  
Корпоративные и частные базы данных часто содержат уникальные и конфиденциальные текстовые данные, которые, как правило, не доступны публично.

- **Записи клиентской поддержки**:  
  Включают логи диалогов с чат-ботами, электронные письма от клиентов и транскрипции телефонных разговоров. Эти данные могут быть использованы для автоматизации ответов на часто задаваемые вопросы (FAQ), повышения качества обслуживания клиентов, выявления типичных проблем и улучшения общего пользовательского опыта.

- **Отчёты и внутренняя документация**:  
  Эти источники содержат специфическую терминологию, внутренний жаргон и уникальную структуру, что часто требует разработки специализированных NLP-моделей, адаптированных под конкретный домен или организацию. Примеры: юридические документы, финансовые отчёты, технические спецификации.

- **Медицинские записи**:  
  Анамнезы, результаты лабораторных исследований, заключения врачей и истории болезни являются чрезвычайно ценными данными для медицинского NLP. Однако их использование требует строжайшего соблюдения международных и локальных правил конфиденциальности и защиты персональных данных (например, HIPAA в США, GDPR в ЕС), а также часто требует деидентификации данных.


#### 1.3. API (Application Programming Interface)  
Многие онлайн-сервисы и платформы предоставляют программные интерфейсы, которые позволяют разработчикам получать доступ к их данным в структурированном, контролируемом и стандартизированном виде. Использование API является наиболее предпочтительным и эффективным методом сбора данных.

**Принцип работы**:  
API предоставляет набор предопределённых правил и протоколов (например, REST, GraphQL) для взаимодействия с сервисом. Вы отправляете запросы в определённом формате (часто JSON или XML) и получаете структурированный ответ, который легко парсится и обрабатывается.

**Преимущества API**:
- Более надёжны, так как специально разработаны для программного доступа.
- Менее подвержены сбоям при изменениях дизайна сайта.
- Данные предоставляются в уже очищенном и хорошо структурированном виде.
- Являются более этичным и законным способом получения данных, поскольку вы действуете в рамках правил, установленных провайдером (соблюдение лимитов запросов, условий использования).

**Примеры**:
- **Twitter API**: Позволяет собирать твиты по ключевым словам, пользователям, хэштегам или геолокации. Идеален для анализа трендов, мониторинга общественного мнения и анализа настроений в реальном времени. Включает ограничения по количеству запросов (rate limits) и объёму данных.
- **Reddit API**: Предоставляет доступ к постам и комментариям из различных сабреддитов, что полезно для изучения сообществ, дискуссий и выявления популярных тем.
- **Wikipedia API**: Позволяет извлекать статьи, их разделы, ссылки и метаданные. Полезен для создания энциклопедических баз знаний, обучения моделей на структурированном тексте и задач извлечения фактов.
- **Google Books Ngram API**: Предоставляет данные о частоте встречаемости N-грамм в огромном корпусе книг, опубликованных за несколько столетий. Бесценный ресурс для лингвистических исследований, анализа эволюции языка и культурных особенностей.



#### 1.4. Публичные датасеты  
Существует множество готовых, часто уже размеченных датасетов, созданных для исследовательских целей, бенчмарков и обучения NLP-моделей.

Использование таких датасетов позволяет значительно ускорить начало работы над проектом, минуя трудоёмкие этапы сбора и первичной разметки данных. Они часто хорошо документированы и уже прошли определённую очистку.

**Примеры**:
- **IMDB reviews**: Широко используемый датасет для задач анализа настроений, содержащий тысячи отзывов о фильмах с бинарными метками «положительный» или «отрицательный».
- **SQuAD (Stanford Question Answering Dataset)**: Датасет для задач ответов на вопросы, где модель должна найти точный ответ на вопрос в предоставленном контекстном тексте.
- **CoNLL (Conference on Natural Language Learning)**: Серии датасетов, используемых для различных задач, включая распознавание именованных сущностей (NER) и синтаксический анализ.
- **Common Crawl**: Огромный открытый веб-корпус, содержащий миллиарды веб-страниц, который может использоваться для предварительного обучения больших языковых моделей и создания общих языковых представлений.

**Лицензирование**:  
При использовании публичных датасетов всегда проверяйте условия лицензирования (например, MIT, Apache, Creative Commons), чтобы убедиться, что их использование соответствует вашим целям (коммерческим или некоммерческим).


#### 1.5. Корпусы текстов  
Это обширные, часто специально собранные, очищенные и аннотированные коллекции текстов, предназначенные для лингвистических исследований, разработки NLP-систем и обучения языковых моделей.

- **Национальный корпус русского языка (НКРЯ)**:  
  Один из крупнейших корпусов русского языка, содержащий тексты различных жанров и эпох, тщательно размеченные по морфологии, синтаксису и семантике.

- **Google Books Ngram Corpus**:  
  Коллекция N-грамм из миллионов книг, опубликованных за несколько столетий, позволяет отслеживать изменения в языке и культурных особенностях.





## 2. Методы сбора

Выбор метода сбора данных определяется источником, структурой данных, их объёмом, а также доступными техническими ресурсами и этическими соображениями.



### 2.1. Веб-скрейпинг (Web Scraping)

Процесс автоматического извлечения данных с веб-сайтов. Это мощный инструмент, особенно когда отсутствует доступный API или данные представлены в неструктурированном HTML-формате.

**Принцип работы**:  
Скрейпинг включает отправку HTTP-запросов к веб-серверу для получения HTML-кода страницы. После получения HTML-кода он парсится (анализируется) для извлечения необходимой информации с помощью специализированных инструментов.

**Основные шаги**:
1. **Отправка HTTP-запроса**:  
   Использование библиотеки `requests` для получения HTML-содержимого страницы.
2. **Парсинг HTML**:  
   Анализ структуры HTML-документа для нахождения нужных элементов. Для этого используются:
   - **BeautifulSoup**: Простая и гибкая библиотека для извлечения данных из HTML и XML. Позволяет искать элементы по тегам, классам, ID и другим атрибутам.
   - **lxml**: Более быстрая и мощная библиотека для работы с XML и HTML, поддерживающая XPath и CSS-селекторы.
   - **XPath / CSS-селекторы**: Языки запросов для навигации по структуре документа и выбора конкретных элементов.
3. **Извлечение данных**:  
   Получение текстового содержимого, ссылок, атрибутов из найденных элементов.
4. **Сохранение**:  
   Запись извлечённых данных в выбранный формат (JSON, CSV, TXT и т.д.).

**Обработка динамического контента (JavaScript)**:  
Многие современные веб-сайты загружают контент асинхронно с помощью JavaScript. Обычные HTTP-запросы в этом случае не возвращают полное содержимое страницы. Для таких случаев используются:
- **Selenium**: Автоматизирует управление полноценным веб-браузером (Chrome, Firefox), позволяя имитировать действия пользователя (клики, прокрутка, ввод текста) и дожидаться загрузки динамического контента.
- **Playwright / Puppeteer**: Более современные и быстрые headless-браузеры, которые также позволяют программно управлять браузером и получать доступ к DOM после выполнения JavaScript.

**Борьба с анти-скрейпинг мерами**:  
Веб-сайты часто используют различные методы для предотвращения автоматизированного сбора данных:
- **Rate Limiting**: Ограничение количества запросов с одного IP-адреса за определённый период.  
  *Решение*: использование задержек между запросами (`time.sleep()`), ротация IP-адресов (прокси-серверы).
- **CAPTCHA**: Проверка, является ли пользователь человеком.  
  *Решение*: использование сервисов для автоматического распознавания CAPTCHA (хотя это может быть этически спорно).
- **User-Agent / Headers**: Блокировка запросов с подозрительными заголовками.  
  *Решение*: имитация заголовков реальных браузеров.
- **Изменение структуры HTML**: Регулярные изменения в разметке сайта, требующие постоянного обновления скриптов.

**Этические и юридические аспекты**:  
Крайне важно строго соблюдать правила использования веб-сайтов, которые часто указываются в файлах `robots.txt` (информирующих автоматических ботов о разрешённых и запрещённых разделах сайта) и пользовательских соглашениях. Также необходимо учитывать законодательство об авторском праве и защите персональных данных (например, GDPR в ЕС, CCPA в США), особенно если собираются данные, содержащие личную информацию. Несанкционированный скрейпинг может привести к юридическим последствиям.



### 2.2. Использование API (Application Programming Interface)

Наиболее предпочтительный, структурированный и контролируемый способ получения данных от онлайн-сервисов.

**Принцип работы**:  
API предоставляет набор предопределённых правил и протоколов (например, RESTful API, GraphQL API) для взаимодействия с сервисом. Вы отправляете запросы в определённом формате (часто JSON или XML) и получаете структурированный ответ, который легко парсится и обрабатывается.

API специально разработаны для программного доступа и менее подвержены сбоям из-за изменений в дизайне или структуре сайта. Данные обычно предоставляются в уже очищенном и хорошо структурированном виде, что значительно упрощает их дальнейшую обработку. Использование API часто является более этичным и законным способом получения данных, так как вы действуете в рамках правил, установленных провайдером (соблюдение лимитов запросов, условий использования).

**Ключевые аспекты работы с API**:
- **Аутентификация**: Многие API требуют аутентификации (например, API-ключи, OAuth-токены) для доступа к данным.
- **Лимиты запросов (Rate Limits)**: Большинство API ограничивают количество запросов за определённый период. Необходимо реализовать логику для соблюдения этих лимитов (например, задержки, повторные попытки с экспоненциальной выдержкой).
- **Пагинация**: Для больших объёмов данных API часто используют пагинацию — возвращают данные частями. Необходимо реализовать логику для запроса всех страниц.
- **Обработка ошибок**: Важно обрабатывать различные HTTP-коды ошибок (например, 403 Forbidden, 404 Not Found, 429 Too Many Requests, 500 Internal Server Error).
- **Специализированные SDK**: Многие крупные сервисы предоставляют официальные клиентские библиотеки (SDK) для различных языков программирования, которые упрощают взаимодействие с API, абстрагируя детали HTTP-запросов и парсинга ответов.



### 2.3. Прямое скачивание

Для публичных датасетов и корпусов, а также для данных, полученных от третьих сторон или исследовательских организаций, часто предусмотрена возможность прямого скачивания.

**Форматы**:  
Данные обычно доступны в виде сжатых архивов (ZIP, GZ, TAR.GZ, 7z), содержащих один или несколько текстовых файлов или файлов в структурированных форматах, таких как CSV, JSON, XML.

Этот метод является самым простым, так как не требует написания сложного кода для извлечения данных — только для их распаковки и загрузки в память для дальнейшей обработки.

**Источники**:  
Крупные репозитории данных, такие как Kaggle, Hugging Face Datasets, UCI Machine Learning Repository, а также сайты исследовательских групп и университетов.



## 3. Форматы хранения текстовых данных

Выбор формата хранения собранных текстовых данных — важное решение, которое зависит от их внутренней структуры, объёма, требований к производительности при чтении/записи, а также от того, как данные будут использоваться в последующих этапах NLP-пайплайна.



### 3.1. TXT (Plain Text)

Самый простой формат для хранения чистого текста без дополнительной разметки или структуры. Файл содержит последовательность символов. Каждая строка может представлять собой отдельный документ, предложение или абзац — в зависимости от принятого соглашения.

**Преимущества**:
- Максимально прост и универсален.
- Читается любым текстовым редактором.
- Легко обрабатывается любым языком программирования.
- Занимает минимальный объём дискового пространства (при отсутствии метаданных).
- Идеально подходит для хранения очень больших объёмов текста, где каждый файл или каждая строка (при построчном разделении) представляет собой отдельный документ или фрагмент.

**Недостатки**:
- Не позволяет хранить метаданные (автор, дата, категория) напрямую внутри файла.
- Не поддерживает иерархические или сложные структуры данных.

**Решение**: Если метаданные необходимы, их приходится хранить в отдельных файлах или использовать соглашения об именовании файлов и папок.

**Пример работы с TXT-файлом (Python)**:


In [None]:
# Создание TXT-файла
with open("document_1.txt", "w", encoding="utf-8") as f:
    f.write("Это первый документ, посвященный основам обработки естественного языка.\n")
    f.write("Он содержит важную информацию для студентов.\n")

# Чтение TXT-файла
with open("document_1.txt", "r", encoding="utf-8") as f:
    content = f.read()
    print("Содержимое TXT-файла:")
    print(content)


### 3.2. CSV (Comma Separated Values)

Простой текстовый формат, в котором значения разделены запятыми (или другими разделителями, такими как точка с запятой, табуляция). Подходит для табличных данных. Каждая строка в файле представляет собой одну запись, а поля в этой записи разделяются определённым символом-разделителем. Первая строка часто содержит заголовки столбцов.

CSV-файлы широко поддерживаются практически всеми программами для работы с данными (табличные редакторы, базы данных) и библиотеками (например, Pandas в Python), что делает их удобными для обмена данными. Они легко читаются человеком и эффективны для хранения больших объёмов данных с простой, плоской, табличной структурой.

Однако CSV плохо подходит для иерархических или вложенных данных. Возникают трудности при обработке текстовых полей, содержащих символы-разделители (например, запятые в тексте), что требует использования кавычек для экранирования или изменения разделителя. Также существует множество «диалектов» CSV, что иногда приводит к проблемам с парсингом.

**Пример работы с CSV (Python)**:



In [None]:
import csv

# Данные для записи
data = [
    {
        "id": "doc1",
        "text": "Это первый документ, посвященный NLP и векторизации. Он очень важен.",
        "category": "Технологии",
        "tags": "NLP;векторизация;данные",
        "date_published": "2023-01-15"
    },
    {
        "id": "doc2",
        "text": "Второй документ содержит информацию о сборе данных, включая веб-скрейпинг.",
        "category": "Исследования",
        "tags": "сбор данных;веб-скрейпинг",
        "date_published": "2023-02-20"
    }
]
fieldnames = ["id", "text", "category", "tags", "date_published"]

# Создание CSV-файла
with open("documents.csv", "w", newline="", encoding="utf-8") as csvfile:
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames, delimiter=',')
    writer.writeheader()
    writer.writerows(data)
print("CSV-файл успешно создан.")

# Чтение CSV-файла
with open("documents.csv", "r", encoding="utf-8") as csvfile:
    reader = csv.DictReader(csvfile, delimiter=',')
    print("Содержимое CSV-файла:")
    for row in reader:
        print(row)




### 3.3. JSON (JavaScript Object Notation)

Лёгкий, удобочитаемый и широко используемый формат обмена данными, идеально подходящий для хранения структурированных данных. JSON основан на двух базовых структурах: объектах (неупорядоченная коллекция пар «ключ-значение») и массивах (упорядоченная последовательность значений).

JSON-файлы чрезвычайно гибки, так как поддерживают вложенные структуры. Это позволяет хранить текстовые фрагменты вместе с их разнообразными метаданными (например, уникальный идентификатор документа, автор, дата публикации, категория, список тегов, геоданные). Формат широко поддерживается, легко парсится и генерируется в большинстве современных языков программирования и активно используется в веб-разработке и API. Относительно прост в восприятии человеком.

Однако для очень больших файлов, которые не помещаются в оперативную память, чтение всего JSON-файла целиком может быть неэффективным или невозможным, так как он должен быть загружен полностью для корректного парсинга. Кроме того, JSON может быть более «многословным» по сравнению с бинарными форматами, что приводит к увеличению размера файла.

**Пример работы с JSON (Python)**:



In [None]:
import json

# Данные для записи
data = [
    {
        "id": "news_article_001",
        "title": "Новые достижения в области ИИ",
        "text": "Исследователи объявили о прорыве в разработке самообучающихся алгоритмов. Это открывает новые перспективы.",
        "metadata": {
            "category": "Технологии",
            "keywords": ["ИИ", "машинное обучение", "алгоритмы"],
            "publication_date": "2024-07-23",
            "author": {
                "name": "Анна Иванова",
                "affiliation": "Университет XYZ"
            }
        }
    },
    {
        "id": "blog_post_005",
        "title": "Как начать изучать NLP",
        "text": "Для новичков в NLP важно начать с основ обработки текста. Это поможет заложить прочный фундамент.",
        "metadata": {
            "category": "Образование",
            "keywords": ["NLP", "учебник", "старт"],
            "publication_date": "2024-07-20",
            "author": {
                "name": "Иван Петров",
                "affiliation": "Блог NLP-Эксперт"
            }
        }
    }
]

# Создание JSON-файла
with open("documents.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=2)
print("JSON-файл успешно создан.")

# Чтение JSON-файла
with open("documents.json", "r", encoding="utf-8") as f:
    loaded_data = json.load(f)
    print("Содержимое JSON-файла:")
    for item in loaded_data:
        print(item)


### 3.4. JSON Lines (JSONL или LDJSON)

Формат, в котором каждая строка файла является отдельным, самодостаточным JSON-объектом, разделённым символом новой строки. В отличие от стандартного JSON, который обычно представляет собой один большой массив объектов, JSONL — это последовательность JSON-объектов, каждый из которых находится на новой строке.

Этот формат идеально подходит для потоковой обработки очень больших наборов данных, поскольку каждую строку можно читать и обрабатывать построчно, не загружая весь файл в память целиком. Это делает его особенно эффективным для работы с гигантскими текстовыми корпусами, которые не помещаются в оперативную память.

JSONL также удобен для добавления новых записей в конец файла без необходимости перезаписывать весь файл, а также легко распараллеливается, так как каждая строка может быть обработана независимо.

Однако JSONL не может быть распарсен стандартным JSON-парсером как единый документ — требуется построчное чтение и парсинг каждой строки отдельно. Кроме того, у него отсутствует единый корневой элемент.

**Пример работы с JSONL (Python)**:


In [None]:
import json

# Данные для записи
data_lines = [
    {"id": "review_001", "text": "Отличный продукт, очень доволен его качеством!", "sentiment": "positive", "rating": 5},
    {"id": "review_002", "text": "Доставка заняла слишком много времени. Это расстроило.", "sentiment": "negative", "rating": 2},
    {"id": "review_003", "text": "В целом неплохо, но есть куда расти. Могло быть лучше.", "sentiment": "neutral", "rating": 3}
]

# Создание JSONL-файла
with open("reviews.jsonl", "w", encoding="utf-8") as f:
    for item in data_lines:
        f.write(json.dumps(item, ensure_ascii=False) + '\n')
print("JSONL-файл успешно создан.")

# Чтение JSONL-файла
print("Содержимое JSONL-файла:")
with open("reviews.jsonl", "r", encoding="utf-8") as f:
    for line in f:
        item = json.loads(line.strip())
        print(item)




### 3.5. XML (Extensible Markup Language)

Язык разметки, предназначенный для хранения и передачи структурированных данных. XML использует теги (аналогичные HTML) для определения элементов данных и их иерархической структуры. Каждый документ имеет корневой элемент, а данные вкладываются в теги.

XML отлично подходит для сложных, иерархических данных, где важна строгая структура. Пользователи могут определять собственные теги, что делает формат очень гибким. XML-документы могут быть валидированы с помощью DTD (Document Type Definition) или XML Schema, что обеспечивает соответствие данных заданной структуре.

Формат широко используется в лингвистике — многие лингвистические корпусы и стандарты (например, TEI — Text Encoding Initiative) применяют XML для аннотации текста.

**Недостатки**:
- XML-файлы часто значительно больше по размеру, чем их JSON-эквиваленты, из-за повторяющихся тегов.
- Парсинг XML может быть сложнее, чем парсинг JSON, особенно для новичков.
- Из-за многословности и сложности обработка больших XML-файлов может быть медленнее.

**Пример работы с XML (Python)**:


In [None]:
import xml.etree.ElementTree as ET

# Создание корневого элемента
root = ET.Element("documents")

# Добавление первого документа
doc1 = ET.SubElement(root, "document", id="news_article_001")
ET.SubElement(doc1, "title").text = "Новые достижения в области ИИ"
ET.SubElement(doc1, "text").text = "Исследователи объявили о прорыве в разработке самообучающихся алгоритмов."
metadata1 = ET.SubElement(doc1, "metadata")
ET.SubElement(metadata1, "category").text = "Технологии"
keywords1 = ET.SubElement(metadata1, "keywords")
ET.SubElement(keywords1, "keyword").text = "ИИ"
ET.SubElement(keywords1, "keyword").text = "машинное обучение"
ET.SubElement(keywords1, "keyword").text = "алгоритмы"
ET.SubElement(metadata1, "publication_date").text = "2024-07-23"
author1 = ET.SubElement(metadata1, "author")
ET.SubElement(author1, "name").text = "Анна Иванова"
ET.SubElement(author1, "affiliation").text = "Университет XYZ"

# Добавление второго документа
doc2 = ET.SubElement(root, "document", id="blog_post_005")
ET.SubElement(doc2, "title").text = "Как начать изучать NLP"
ET.SubElement(doc2, "text").text = "Для новичков в NLP важно начать с основ обработки текста."
metadata2 = ET.SubElement(doc2, "metadata")
ET.SubElement(metadata2, "category").text = "Образование"
keywords2 = ET.SubElement(metadata2, "keywords")
ET.SubElement(keywords2, "keyword").text = "NLP"
ET.SubElement(keywords2, "keyword").text = "учебник"
ET.SubElement(keywords2, "keyword").text = "старт"
ET.SubElement(metadata2, "publication_date").text = "2024-07-20"
author2 = ET.SubElement(metadata2, "author")
ET.SubElement(author2, "name").text = "Иван Петров"
ET.SubElement(author2, "affiliation").text = "Блог NLP-Эксперт"

# Создание XML-дерева и запись в файл
tree = ET.ElementTree(root)
ET.indent(tree, space="  ", level=0)  # Для красивого форматирования
tree.write("documents.xml", encoding="utf-8", xml_declaration=True)
print("XML-файл успешно создан.")

# Чтение XML-файла
tree = ET.parse("documents.xml")
root = tree.getroot()
print("Содержимое XML-файла:")
for doc in root.findall('document'):
    doc_id = doc.get('id')
    title = doc.find('title').text
    text = doc.find('text').text
    category = doc.find('metadata/category').text
    keywords = [kw.text for kw in doc.findall('metadata/keywords/keyword')]
    print(f"ID: {doc_id}, Title: {title}, Text: {text[:50]}..., Category: {category}, Keywords: {keywords}")





### 3.6. Бинарные колоночные форматы (Parquet, ORC)

Эти форматы предназначены для эффективного хранения и обработки очень больших объёмов данных в распределённых системах (например, Apache Spark, Hadoop). В отличие от построчного хранения, они хранят данные **по столбцам** — все значения одного столбца хранятся вместе.

Они включают встроенную схему и метаданные, используют эффективные алгоритмы сжатия (что значительно уменьшает размер файлов) и обеспечивают высокую производительность при аналитических запросах, выбирающих подмножество столбцов (не нужно читать весь файл).

Форматы идеально подходят для экосистем больших данных и ETL-процессов, обеспечивая строгую схему и высокую скорость чтения.

**Недостатки**:
- Более сложны в использовании по сравнению с текстовыми форматами.
- Непосредственно нечитаемы человеком.
- Не предназначены для частой дозаписи отдельных записей.

В NLP такие форматы могут использоваться для хранения больших таблиц, где один из столбцов содержит текст, а другие — метаданные или признаки, извлечённые из текста.



In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# Создаем Spark-сессию
spark = SparkSession.builder.appName("ParquetExample").getOrCreate()

# Определяем схему данных
schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("text", StringType(), True),
    StructField("label", IntegerType(), True)
])

# Пример данных для записи
data = [(1, "Пример текста для NLP", 0),
        (2, "Еще один текст", 1)]

# Создаем DataFrame
df = spark.createDataFrame(data, schema)

# Записываем в Parquet
df.write.parquet("text_data.parquet")

# Читаем Parquet-файл
parquet_df = spark.read.parquet("text_data.parquet")
parquet_df.show()

Чтение Parquet-файла в Pandas

In [None]:
import pandas as pd

# Чтение Parquet-файла (используется библиотека pyarrow)
df = pd.read_parquet("text_data.parquet")
print(df.head())



### 3.7. Базы данных (SQL / NoSQL)

Для хранения текстовых данных могут использоваться как традиционные, так и нереляционные базы данных.

#### SQL (реляционные базы данных):
Текст может храниться в столбцах типа `VARCHAR`, `TEXT` или `NVARCHAR`.  
**Преимущества**:
- Строгая схема данных.
- Поддержка транзакций.
- Мощные возможности запросов (SQL).

**Недостатки**:
- Могут быть неоптимальны для очень больших неструктурированных текстов.
- Сложно адаптировать под часто меняющиеся схемы.

**Примеры**: PostgreSQL, MySQL, SQLite.


In [None]:
import sqlite3

# Подключение к базе данных SQLite (файл создается автоматически)
conn = sqlite3.connect("nlp_db.sqlite")
cursor = conn.cursor()

# Создание таблицы для хранения текстов
cursor.execute("""
    CREATE TABLE IF NOT EXISTS texts (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        content TEXT,
        label INTEGER
    )
""")
conn.commit()

# Вставка данных
cursor.execute(
    "INSERT INTO texts (content, label) VALUES (?, ?)",
    ("Пример текста из SQLite", 1)
)
conn.commit()

# Чтение данных
cursor.execute("SELECT * FROM texts")
rows = cursor.fetchall()
for row in rows:
    print(row)

# Закрытие соединения
cursor.close()
conn.close()


#### NoSQL (нереляционные базы данных):

- **Документоориентированные базы данных** (например, MongoDB, Couchbase):  
  Хранят данные в формате, похожем на JSON. Идеальны для гибких схем и иерархических данных.

- **Ключ-значение хранилища** (например, Redis, DynamoDB):  
  Просты и быстры, но менее гибки для сложных запросов.

- **Графовые базы данных** (например, Neo4j):  
  Полезны для хранения текстовых данных, связанных с графами знаний (например, извлечённые сущности и их отношения).

**Преимущества NoSQL**:
- Гибкость схемы.
- Масштабируемость.
- Высокая производительность для определённых типов запросов.

**Недостатки**:
- Менее строгая консистентность.
- Отсутствие стандартизированного языка запросов (в отличие от SQL).


```
from pymongo import MongoClient

# Подключение к MongoDB
client = MongoClient("mongodb://localhost:27017/")
db = client["nlp_database"]
collection = db["texts"]

# Вставка документа
doc = {
    "text": "Пример текста в MongoDB",
    "label": 0,
    "metadata": {"source": "web", "lang": "ru"}
}
collection.insert_one(doc)

# Поиск документов
for record in collection.find({"label": 0}):
    print(record)
```





### Заключение по форматам хранения

Выбор формата хранения должен определяться балансом между:
- удобством обработки,
- объёмом данных,
- необходимостью хранения метаинформации,
- требованиями к производительности при чтении/записи,
- интеграцией с существующей инфраструктурой.

Часто в крупных и сложных NLP-проектах используется комбинация форматов: например, основной текст хранится в `TXT` или `JSONL` для потоковой обработки, а структурированные метаданные и результаты анализа — в `JSON`, `Parquet` или реляционной базе данных.





# §2. Разметка (аннотация) данных: Подробное описание

Разметка данных, или аннотация, является критически важным этапом в жизненном цикле разработки NLP-моделей, особенно для задач обучения с учителем. Этот процесс заключается в добавлении к необработанным текстовым данным метаинформации — меток, тегов или других атрибутов, которые указывают на определённые характеристики текста, его частей или отношений между ними. Качество и согласованность разметки напрямую влияют на способность модели обучаться и обобщать знания на новые, невидимые данные.



## 1. Принципы ручной и полуавтоматической разметки

Выбор между ручной и полуавтоматической разметкой, а также их комбинацией, зависит от объёма данных, сложности задачи, доступных ресурсов и требуемой точности.

### 1.1. Ручная разметка

Это процесс, при котором люди-аннотаторы вручную просматривают и помечают текстовые данные в соответствии с заранее определёнными правилами и инструкциями.

Ручная разметка незаменима для создания высококачественных «золотых стандартов» (ground truth) для обучения и оценки моделей. Она часто используется на начальных этапах проекта, когда автоматические методы ещё не разработаны или недостаточно точны, а также для сложных задач, требующих глубокого понимания контекста, здравого смысла или экспертных знаний.

Ручная разметка является наиболее точной, но при этом самой дорогой и трудоёмкой. Она требует значительных временных и финансовых затрат, особенно при работе с большими объёмами данных. Кроме того, существует риск субъективности и несогласованности между разными аннотаторами.

Для обеспечения согласованности и высокого качества ручной разметки крайне важно разработать чёткие и исчерпывающие руководства (guidelines) для аннотаторов. Эти руководства должны включать:
- определения всех категорий меток,
- примеры их применения,
- правила разрешения неоднозначностей,
- описание часто встречающихся пограничных случаев.

Регулярное обучение аннотаторов и калибровка их понимания правил также являются ключевыми элементами успешной ручной разметки.

### 1.2. Полуавтоматическая разметка (Human-in-the-Loop)

Этот подход комбинирует ручную разметку с автоматическими методами машинного обучения, что позволяет значительно ускорить процесс и снизить затраты, сохраняя при этом высокое качество.

Принцип работы заключается в том, что модель машинного обучения (часто предварительно обученная на небольшом наборе вручную размеченных данных) используется для предварительной разметки неразмеченных данных. Затем человек-аннотатор просматривает и корректирует эти автоматические метки, исправляя ошибки и уточняя неоднозначности.

#### Методы полуавтоматической разметки:

- **Активное обучение (Active Learning)**:  
  Модель активно выбирает наиболее «информативные» или «сложные» неразмеченные примеры для ручной аннотации. К ним относятся, например, те, по которым модель наименее уверена в своём предсказании, или примеры, находящиеся близко к границе принятия решений. Аннотация таких примеров приносит максимальную пользу для улучшения модели и минимизирует объём ручной работы.

- **Программная разметка (Programmatic Labeling / Weak Supervision)**:  
  Используются эвристические правила, регулярные выражения, словари или другие простые алгоритмы для автоматического присвоения меток данным. Эти «слабые» метки могут быть менее точными, чем ручные, но они генерируются быстро и в больших объёмах. Затем они могут использоваться для обучения «мета-модели», которая комбинирует слабые сигналы, или для предварительного обучения более сложной модели.

- **Интерактивные инструменты**:  
  Современные инструменты аннотации (например, Label Studio) включают встроенные функции полуавтоматической разметки, позволяя аннотаторам быстро принимать или отклонять предложенные моделью метки.



## 2. Инструменты для аннотации

Эффективная разметка данных невозможна без специализированных инструментов, которые упрощают процесс, обеспечивают согласованность и позволяют управлять проектами аннотации.

### 2.1. Label Studio

Мощный инструмент с открытым исходным кодом, поддерживающий широкий спектр типов данных (текст, изображения, аудио, видео) и задач аннотации.

Label Studio позволяет настраивать интерфейс под конкретные нужды проекта и поддерживает различные типы разметки текста: классификацию текста, распознавание именованных сущностей (NER), разметку отношений, тегирование частей речи, анализ настроений. Он также предоставляет функции для управления проектами, отслеживания прогресса аннотаторов и экспорта размеченных данных в различных форматах. Поддерживает интеграцию с моделями машинного обучения для полуавтоматической разметки.

### 2.2. Doccano

Ещё один популярный инструмент с открытым исходным кодом, специально ориентированный на текстовые данные.

Doccano поддерживает основные задачи текстовой аннотации: классификацию текста, распознавание именованных сущностей (NER) и разметку пар предложений (например, для задач определения логического следования). Имеет простой и интуитивно понятный веб-интерфейс, что делает его удобным для быстрого старта.

### 2.3. Prodigy

Платный инструмент для аннотации от компании Explosion AI, создателей библиотеки spaCy. Ориентирован на эффективность и скорость разметки с использованием активного обучения.

Prodigy отличается высокой производительностью и возможностью интеграции с моделями spaCy для умной предварительной разметки и выбора наиболее ценных для аннотации примеров. Предназначен для разработчиков и исследователей, которым нужен гибкий инструмент, управляемый из командной строки и позволяющий быстро и итеративно размечать данные.

### 2.4. Hugging Face Ecosystem

Платформа Hugging Face, известная своим репозиторием моделей и датасетов, также играет важную роль в процессе аннотации данных, предоставляя инструменты и инфраструктуру для управления и совместной работы.

- **Hugging Face Spaces**:  
  Позволяет хостить и запускать веб-приложения, включая инструменты для аннотации, такие как Label Studio. Это даёт возможность быстро развернуть инструмент для разметки и предоставить к нему доступ команде.

- **Hugging Face Hub (библиотека Datasets)**:  
  Хотя сама по себе не является инструментом для аннотации, библиотека `datasets` и Hugging Face Hub служат централизованным хранилищем для размеченных данных. Это облегчает загрузку, обработку, совместное использование и версионирование датасетов, полученных в результате аннотации.

- **Интеграции с инструментами аннотации**:  
  Многие популярные инструменты (например, Argilla и CVAT) предлагают интеграцию с Hugging Face Hub. Это позволяет легко экспортировать размеченные данные на платформу Hugging Face для дальнейшего использования в обучении моделей или для обмена с сообществом. Также существуют руководства и «кулинарные книги» (cookbooks) на Hugging Face, демонстрирующие, как использовать различные инструменты для аннотации, включая методы активного обучения.




### 2.5. Другие инструменты и подходы

- **In-house инструменты**:  
  Некоторые компании разрабатывают собственные инструменты для аннотации, которые точно соответствуют их уникальным требованиям и интегрируются с существующими внутренними системами.

- **Коммерческие платформы**:  
  Существуют коммерческие платформы для аннотации данных (например, Amazon Mechanical Turk, Figure Eight / Appen, Scale AI), которые предоставляют не только инструменты, но и доступ к большой базе квалифицированных аннотаторов. Это удобно для аутсорсинга больших объёмов разметки.



## 3. Оценка качества разметки

Оценка качества разметки является критически важным шагом, поскольку ошибки или несогласованность в размеченных данных могут привести к обучению неэффективных или предвзятых моделей.



### 3.1. Интераннотаторская согласованность (Inter-Annotator Agreement, IAA)

Интераннотаторская согласованность (IAA) — это количественная мера степени совпадения решений между двумя или более аннотаторами при разметке одного и того же набора данных. Она играет ключевую роль в оценке качества и надёжности аннотированных данных, особенно в задачах машинного обучения, обработки естественного языка, медицинской диагностики и социологических исследованиях.

**Высокий уровень IAA свидетельствует о том, что**:
- инструкции по разметке чётко и однозначно сформулированы,
- аннотаторы единообразно понимают поставленную задачу,
- разметка является воспроизводимой и надёжной.

**Низкая IAA может указывать на**:
- неоднозначность в определениях или критериях разметки,
- недостаточную подготовку или инструктаж аннотаторов,
- высокую субъективность или сложность самой задачи (например, распознавание эмоций, оценка стиля текста),
- наличие ошибок или шумов в данных.

Таким образом, IAA служит важным индикатором как качества процесса аннотации, так и пригодности данных для дальнейшего использования в обучении моделей. Повышение IAA зачастую требует уточнения инструкций, проведения дополнительных раундов тренировки аннотаторов и анализа спорных примеров.



### Методы измерения IAA

Для количественной оценки IAA используются различные статистические метрики, выбор которых зависит от типа данных и числа аннотаторов:

- **Коэффициент Каппа Коэна** — для двух аннотаторов и номинальных шкал.  
- **Взвешенная Каппа** — когда важно учитывать степень различия между метками (например, в порядковых шкалах).  
- **Коэффициент Флайса (Fleiss’ Kappa)** — для оценки согласия между тремя и более аннотаторами.  
- **Корреляция (Пирсон, Кендалл, Спирмен)** — для количественных или порядковых оценок.



#### Коэффициент Каппа Коэна (Cohen’s Kappa)

Коэффициент Каппа Коэна — это статистическая мера степени согласия между двумя аннотаторами, скорректированная с учётом совпадений, возникающих случайно. Он особенно полезен при анализе категориальных данных (например, классификация текстов, разметка изображений и т.д.).

Формула коэффициента Каппа Коэна:
$$
\kappa = \frac{P_o - P_e}{1 - P_e}
$$

Где:

- $P_o$ (**Observed Agreement**) — наблюдаемая доля согласия:
$$
  P_o = \frac{\text{Число совпадающих оценок}}{\text{Общее число оценок}}
$$

- $P_e$ (**Expected Agreement**) — ожидаемая доля случайного согласия:
$$
  P_e = \sum_{i=1}^{k} p_{\text{анн1},i} \cdot p_{\text{анн2},i}
$$
  где:
  - $k$ — количество категорий,
  - $p_{\text{анн1},i}$ — доля меток категории $i$, присвоенных первым аннотатором,
  - $p_{\text{анн2},i}$ — доля меток категории $i$, присвоенных вторым аннотатором.



#### Интерпретация значений Каппа

Значения коэффициента Каппа Коэна находятся в диапазоне от $-1$ до $1$:

- $\kappa = 1$ — полное согласие между аннотаторами.  
- $\kappa \geq 0.8$ — очень хорошее (почти идеальное) согласие.  
- $0.6 \leq \kappa < 0.8$ — хорошее согласие.  
- $0.4 \leq \kappa < 0.6$ — умеренное согласие.  
- $0.2 \leq \kappa < 0.4$ — слабое согласие.  
- $0 < \kappa < 0.2$ — незначительное согласие.  
- $\kappa = 0$ — согласие на уровне случайности.  
- $\kappa < 0$ — согласие хуже, чем можно было бы ожидать случайно (указывает на систематические расхождения, возможные ошибки в разметке или недопонимание инструкций).

> **Примечание**: Отрицательные значения Каппа встречаются крайне редко и могут сигнализировать о серьёзных проблемах в процессе аннотации (например, аннотаторы систематически дают противоположные метки).



#### Пример вычисления Каппа Коэна на Python



In [None]:
from sklearn.metrics import cohen_kappa_score

# Пример разметки двумя аннотаторами
annotator1 = [1, 0, 2, 1, 2, 0, 1, 2]
annotator2 = [1, 0, 1, 1, 2, 1, 1, 2]

# Вычисление Каппа Коэна
kappa = cohen_kappa_score(annotator1, annotator2)

print(f"Коэффициент Каппа Коэна: {kappa:.3f}")


**Вывод**:  
```
Коэффициент Каппа Коэна: 0.610
```

**Интерпретация**: Значение $\kappa = 0.610$ указывает на **хорошее согласие** между аннотаторами.



#### Ограничения Каппа Коэна

- Применим только для **двух аннотаторов**.  
- Предполагает, что категории **номинальные** (не учитывает порядок).  
- Для порядковых шкал (например, оценки от 1 до 5) рекомендуется использовать **взвешенную Каппу** (например, линейную или квадратичную).  
- Чувствителен к распределению меток — при сильной несбалансированности классов значение $P_e$ может быть высоким, что «понижает» значение $\kappa$.



#### Альтернативы

- **Fleiss’ Kappa** — для оценки согласия между более чем двумя аннотаторами.  
- **Корреляция по Пирсону / Кендаллу** — для порядковых данных.  
- **Взвешенная Каппа** — когда важно учитывать степень несовпадения (например, разница между оценкой 1 и 2 менее критична, чем между 1 и 5).


In [None]:
import pandas as pd
from sklearn.metrics import cohen_kappa_score
import random
from typing import List, Dict, Any

# Определение класса для проекта разметки данных
class AnnotationProject:
    """
    Класс для симуляции и оценки проекта разметки данных.

    Этот класс инкапсулирует логику создания небольшого набора данных,
    симуляции ручной разметки двумя "аннотаторами" и вычисления
    меж-аннотаторской согласованности (IAA) с использованием
    коэффициента Каппа Коэна.
    """

    def __init__(self, categories: List[str]):
        """
        Инициализация проекта разметки.

        Args:
            categories (List[str]): Список возможных категорий для разметки (например, ['позитивный', 'негативный']).
        """
        self.categories = categories
        self.dataset = self._create_synthetic_dataset()
        self.annotations = {} # Словарь для хранения разметки аннотаторов

    def _create_synthetic_dataset(self) -> List[Dict[str, Any]]:
        """
        Создает небольшой синтетический набор данных для демонстрации.

        Набор данных состоит из 100 текстовых примеров.
        """
        print("Создание синтетического набора данных...")
        sentences = [
            "Этот продукт просто ужасен, никогда больше его не куплю.",
            "Отличный сервис и быстрая доставка!",
            "Фильм был скучным и затянутым, не рекомендую.",
            "Прекрасный день для прогулки.",
            "Всё работает как ожидалось, без нареканий.",
            "Очень разочарован качеством товара.",
            "Я абсолютно в восторге от этой книги.",
            "Нейтральная новость о погоде.",
            "Сложно сказать, понравилось или нет.",
            "Просто обычный обед."
        ]

        # Расширяем набор данных, чтобы было 100 примеров
        data = []
        for i in range(100):
            text = f"Пример {i+1}: {random.choice(sentences)}"
            # Простое назначение "истинной" метки
            if "ужасен" in text or "скучным" in text or "разочарован" in text:
                true_label = "Негативный"
            elif "Отличный" in text or "Прекрасный" in text or "восторг" in text:
                true_label = "Позитивный"
            else:
                true_label = "Нейтральный"

            data.append({"id": i, "text": text, "true_label": true_label})

        print(f"Синтетический набор данных создан с {len(data)} примерами.")
        return data

    def simulate_manual_annotation(self, annotator_id: str, error_rate: float = 0.1) -> List[str]:
        """
        Симулирует процесс ручной разметки одним аннотатором.

        Каждый аннотатор имеет определенный процент ошибок, который имитирует
        человеческий фактор и возможные расхождения.

        Args:
            annotator_id (str): Идентификатор аннотатора (например, 'Аннотатор 1').
            error_rate (float): Процент ошибок в разметке (от 0.0 до 1.0).

        Returns:
            List[str]: Список размеченных меток.
        """
        print(f"\nСимуляция разметки для {annotator_id}...")
        annotations = []
        for item in self.dataset:
            true_label = item["true_label"]

            # С вероятностью error_rate аннотатор делает ошибку
            if random.random() < error_rate:
                # Случайным образом выбираем неправильную метку
                wrong_categories = [cat for cat in self.categories if cat != true_label]
                annotated_label = random.choice(wrong_categories)
            else:
                annotated_label = true_label

            annotations.append(annotated_label)

        self.annotations[annotator_id] = annotations
        print(f"Разметка для {annotator_id} завершена. Количество меток: {len(annotations)}")
        return annotations

    def calculate_iaa(self, annotator1_id: str, annotator2_id: str) -> float:
        """
        Вычисляет коэффициент Каппа Коэна для оценки меж-аннотаторской согласованности.

        Args:
            annotator1_id (str): Идентификатор первого аннотатора.
            annotator2_id (str): Идентификатор второго аннотатора.

        Returns:
            float: Значение коэффициента Каппа Коэна.

        Raises:
            ValueError: Если разметка для одного из аннотаторов отсутствует.
        """
        if annotator1_id not in self.annotations or annotator2_id not in self.annotations:
            raise ValueError("Разметка для одного или обоих аннотаторов отсутствует. Запустите симуляцию разметки сначала.")

        ann1_labels = self.annotations[annotator1_id]
        ann2_labels = self.annotations[annotator2_id]

        print(f"\nВычисление коэффициента Каппа Коэна для {annotator1_id} и {annotator2_id}...")
        # Каппа Коэна требует, чтобы метки были одинакового типа и длины
        kappa = cohen_kappa_score(ann1_labels, ann2_labels)

        return kappa

    def run_project(self):
        """
        Запускает полный цикл симуляции проекта разметки.
        """
        print("--- Запуск проекта разметки ---")

        # Симуляция разметки для двух аннотаторов с разным процентом ошибок
        self.simulate_manual_annotation("Аннотатор 1", error_rate=0.1)
        self.simulate_manual_annotation("Аннотатор 2", error_rate=0.2)

        # Вычисление и вывод коэффициента Каппа Коэна
        kappa_score = self.calculate_iaa("Аннотатор 1", "Аннотатор 2")
        print(f"\nКоэффициент Каппа Коэна между аннотатором 1 и 2: {kappa_score:.3f}")

        # Интерпретация результата
        if kappa_score >= 0.8:
            interpretation = "Очень хорошее (почти идеальное) согласие."
        elif 0.6 <= kappa_score < 0.8:
            interpretation = "Хорошее согласие."
        elif 0.4 <= kappa_score < 0.6:
            interpretation = "Умеренное согласие."
        else:
            interpretation = "Слабое или незначительное согласие. Инструкции, возможно, требуют уточнения."

        print(f"Интерпретация: {interpretation}")

# --- Запуск демонстрации ---
if __name__ == "__main__":
    # Определяем категории для разметки (например, для задачи анализа тональности)
    sentiment_categories = ["Позитивный", "Негативный", "Нейтральный"]

    # Создаем экземпляр класса AnnotationProject
    project = AnnotationProject(categories=sentiment_categories)

    # Запускаем полный цикл проекта
    project.run_project()


# §3. Аугментация текстовых данных: Подробное описание

Аугментация данных (Data Augmentation) — это совокупность методов, направленных на искусственное увеличение объёма обучающих данных путём создания новых, изменённых версий уже существующих примеров. В контексте обработки естественного языка (NLP) это означает генерацию вариаций исходных текстовых данных, которые сохраняют их семантическое значение, но отличаются по форме.

Этот подход особенно ценен в ситуациях, когда доступен ограниченный объём размеченных данных — что является частой проблемой в NLP. Эффективная аугментация помогает:
- улучшить обобщающую способность модели,
- снизить риск переобучения,
- повысить устойчивость к небольшим изменениям во входных данных.



## 1. Методы аугментации текстовых данных

Методы аугментации текста варьируются от простых операций на уровне слов до сложных подходов с использованием генеративных моделей. Выбор метода зависит от задачи, типа данных и доступных ресурсов.

### 1.1. Замена синонимами (Synonym Replacement)

Метод заключается в замене слов в предложении их синонимами. Цель — ввести лексическое разнообразие, сохранив при этом исходный смысл.

**Пример**:  
- Исходное предложение: «Кот быстро бежит по траве».  
- Аугментированное предложение: «Кот стремительно бежит по траве».

**Особенности реализации**:
- Важно использовать **контекстно-зависимые синонимы**, чтобы избежать искажения смысла. Простая замена по словарю может привести к нелепым или грамматически некорректным предложениям. Например, синоним слова «банк» (финансовое учреждение) не должен быть «берег реки».
- Для более продвинутой замены могут использоваться **векторные представления слов** (например, Word2Vec, GloVe) для поиска ближайших по смыслу слов в векторном пространстве.

**Пример на Python (с использованием nltk и WordNet для синонимов)**:


In [None]:
import nltk
from nltk.corpus import wordnet
import random

# Загрузка необходимых данных
nltk.download('wordnet')
nltk.download('omw-1.4')

def get_synonyms(word):
    """Возвращает список синонимов для английского слова."""
    synonyms = set()
    for syn in wordnet.synsets(word):
        for lemma in syn.lemmas():
            synonym = lemma.name().replace('_', ' ')
            synonyms.add(synonym.lower())
    # Удаляем исходное слово
    synonyms.discard(word.lower())
    return list(synonyms)

def synonym_replacement(sentence, n=1):
    """Заменяет n случайных слов в предложении их синонимами."""
    words = sentence.split()
    if len(words) == 0:
        return sentence

    new_words = words.copy()
    indices = random.sample(range(len(words)), min(n, len(words)))

    for idx in indices:
        word = words[idx].strip('.,!?";')
        synonyms = get_synonyms(word.lower())
        if synonyms:
            new_word = random.choice(synonyms)
            # Сохраняем заглавную букву
            if words[idx][0].isupper():
                new_word = new_word.capitalize()
            # Возвращаем пунктуацию
            punct = words[idx][-1] if words[idx][-1] in '.,!?";' else ''
            new_word = new_word + punct
            new_words[idx] = new_word

    return ' '.join(new_words)

# Пример
sentence = "This is a very good movie, I liked it."
augmented = synonym_replacement(sentence, n=2)
print(f"Original: {sentence}")
print(f"Augmented: {augmented}")


> **Примечание**: WordNet для русского языка может быть ограничен по объёму синонимов. Для русского рекомендуется использовать альтернативные источники (например, библиотеку `pymorphy2`, словари синонимов или эмбеддинги).



### 1.2. Перефразирование (Paraphrasing)

Метод заключается в переписывании предложений или фраз с сохранением смысла, но с изменением синтаксической структуры, лексики или порядка слов. Перефразирование делает модель более устойчивой к разным формулировкам одного и того же содержания.

**Пример**:  
- Исходное предложение: «Из-за сильного дождя матч был отложен».  
- Аугментированное предложение: «Матч был перенесён по причине обильных осадков».

**Особенности реализации**:
- Может выполняться вручную (трудоёмко) или с помощью **моделей генерации текста**, таких как T5, BART, Pegasus.
- Требует качественных моделей и значительных вычислительных ресурсов.
- Часто используется в паре с контролем семантической эквивалентности (например, через cosine similarity векторов эмбеддингов).



### 1.3. Обратный перевод (Back-translation)

Метод включает перевод исходного текста на другой язык, а затем обратный перевод полученного текста на исходный язык. Процесс часто приводит к небольшим изменениям формулировки при сохранении основного смысла, создавая семантически эквивалентную версию.

**Пример**:  
- Исходное предложение (русский): «Я люблю изучать обработку естественного языка».  
- Перевод на английский: «I love studying natural language processing».  
- Обратный перевод на русский: «Мне нравится изучать обработку естественного языка».

**Особенности реализации**:
- Требуются качественные модели машинного перевода.
- Выбор промежуточного языка влияет на степень изменения текста (например, английский → немецкий → русский может дать большее разнообразие).
- Использование нескольких промежуточных языков увеличивает вариативность.

> **Примечание**: Библиотека `googletrans` использует Google Translate API, который не предназначен для промышленного использования без ключа API и может быть нестабильным при больших объёмах. Для реальных проектов рекомендуется использовать официальные API (Google Cloud Translation, DeepL API и т.д.).



In [None]:
!pip install -q transformers sentencepiece

from transformers import MarianMTModel, MarianTokenizer

def translate(texts, src_lang, tgt_lang):
    model_name = f'Helsinki-NLP/opus-mt-{src_lang}-{tgt_lang}'
    tokenizer = MarianTokenizer.from_pretrained(model_name)
    model = MarianMTModel.from_pretrained(model_name)

    inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
    translated = model.generate(**inputs)
    return [tokenizer.decode(t, skip_special_tokens=True) for t in translated]

# Пример: Обратный перевод
original_text = "Я люблю изучать обработку естественного языка."

# Шаг 1: Русский → Английский
en_text = translate([original_text], src_lang="ru", tgt_lang="en")[0]
print("EN translation:", en_text)

# Шаг 2: Английский → Русский
back_translated = translate([en_text], src_lang="en", tgt_lang="ru")[0]
print("Back-translation:", back_translated)



### 1.4. Случайная вставка слов (Random Insertion)

Метод заключается в случайной вставке синонимов или релевантных слов в предложение. Для каждого слова в предложении с определённой вероятностью выбирается место для вставки синонима этого слова или другого слова, связанного по смыслу.

**Цель**: увеличить разнообразие текстов, не нарушая семантику.

**Пример**:  
- Исходное предложение: «Он читает книгу».  
- После вставки: «Он спокойно читает интересную книгу».

**Особенности реализации**:
- Часто используется в комбинации с методом замены синонимами.
- Важно избегать вставки слов, которые искажают смысл или нарушают грамматику.
- Может быть реализован с помощью эмбеддингов (вставка ближайших по смыслу слов) или тематических словарей.

Пример на питон:


In [None]:
# Шаг 1: Установка (если нужно)
# !pip install nltk

# Шаг 2: Импорт библиотек
import nltk
from nltk.corpus import wordnet
import random

# Шаг 3: Скачивание необходимых данных
nltk.download('wordnet')
nltk.download('omw-1.4')  # Для многозначных синонимов

# Функция: получение синонимов слова
def get_synonyms(word):
    """
    Возвращает список синонимов для английского слова.
    """
    synonyms = set()
    for syn in wordnet.synsets(word):
        for lemma in syn.lemmas():
            synonym = lemma.name().replace('_', ' ').lower()
            if synonym != word.lower():
                synonyms.add(synonym)
    return list(synonyms)

# Функция: случайная вставка синонимов
def random_insertion(sentence, n=1):
    """
    Вставляет n синонимов случайных слов в случайные позиции предложения.

    :param sentence: исходное предложение (str)
    :param n: количество вставок
    :return: аугментированное предложение (str)
    """
    words = sentence.split()
    if len(words) == 0:
        return sentence

    new_words = words.copy()

    for _ in range(n):
        # Выбираем случайное слово из исходного предложения
        random_word = random.choice(words)
        synonyms = get_synonyms(random_word)

        if synonyms:
            # Выбираем случайный синоним
            synonym = random.choice(synonyms)
            # Вставляем в случайную позицию (0 = начало, len(new_words) = конец)
            insert_pos = random.randint(0, len(new_words))
            new_words.insert(insert_pos, synonym)

    # Восстанавливаем пунктуацию в конце
    punctuation = sentence[-1] if sentence[-1] in '.!?' else ''
    result = ' '.join(new_words)
    if punctuation:
        result += punctuation

    return result

# === Пример использования ===
if __name__ == "__main__":
    original_sentence = "I am learning NLP."
    augmented_sentence = random_insertion(original_sentence, n=2)

    print(f"Original: {original_sentence}")
    print(f"Augmented: {augmented_sentence}")


Особенности реализации: Важно контролировать количество вставляемых слов, чтобы не исказить смысл предложения и не создать чрезмерный "шум". Вставляемые слова должны быть релевантны контексту.


### 1.5. Случайное удаление слов (Random Deletion)

Метод заключается в случайном удалении слов из предложения с определённой вероятностью. Это помогает модели стать более устойчивой к шуму и неполным данным, а также учиться выделять наиболее важные слова.

**Пример**:  
- Исходное предложение: «Этот очень длинный текст содержит много ненужных слов».  
- Аугментированное предложение: «Этот длинный текст много слов».

**Особенности реализации**:  
Вероятность удаления должна быть тщательно подобрана. Слишком высокая вероятность может привести к потере важной информации и искажению смысла.

**Пример на Python**:



In [None]:
import random

def random_deletion(sentence, p=0.1):
    """Удаляет слова из предложения с вероятностью p."""
    words = sentence.split()
    if len(words) == 0:
        return sentence

    new_words = []
    for word in words:
        if random.random() > p:  # Сохраняем слово с вероятностью (1-p)
            new_words.append(word)

    # Если все слова удалены, возвращаем случайное слово из оригинала
    if not new_words:
        return random.choice(words) if words else ""

    return ' '.join(new_words)

sentence = "Это очень длинное предложение для демонстрации случайного удаления слов."
augmented_sentence = random_deletion(sentence, p=0.2)
print(f"Исходное: {sentence}")
print(f"Аугментированное (случайное удаление): {augmented_sentence}")



### 1.6. Случайная перестановка слов (Random Swap)

Метод заключается в случайной перестановке двух слов в предложении. Это помогает модели стать более устойчивой к изменениям в порядке слов, сохраняя при этом тот же набор лексических единиц.

**Пример**:  
- Исходное предложение: «Кошка находится на коврике».  
- Аугментированное предложение: «Кошка коврике на находится».

**Особенности реализации**:  
Количество перестановок должно быть ограничено, чтобы не нарушить грамматику и смысл предложения слишком сильно.

**Пример на Python**:



In [None]:
import random

def random_swap(sentence, n=1):
    """Случайно меняет местами n пар слов в предложении."""
    words = sentence.split()
    if len(words) < 2:
        return sentence

    new_words = words.copy()
    for _ in range(n):
        idx1, idx2 = random.sample(range(len(new_words)), 2)
        new_words[idx1], new_words[idx2] = new_words[idx2], new_words[idx1]
    return ' '.join(new_words)

sentence = "Это простое предложение для тестирования перестановки слов."
augmented_sentence = random_swap(sentence, n=2)
print(f"Исходное: {sentence}")
print(f"Аугментированное (случайная перестановка): {augmented_sentence}")

### 1.7. Аугментация с использованием генеративных моделей (Text Generation Augmentation)

Продвинутый метод, использующий большие языковые модели (LLM), такие как GPT-3, T5, BART и их аналоги, для генерации новых текстов, семантически близких к исходным, но отличающихся по формулировкам, стилю или структуре.

**Принцип работы**:  
Исходный текст подаётся на вход генеративной модели, которая создаёт одну или несколько новых версий — будь то перефразирование, расширение контекста или вариации, сохраняющие основную идею.

**Применение**:  
Особенно полезно для увеличения разнообразия обучающих данных и создания примеров для редких классов.

**Особенности реализации**:  
- Требует доступа к мощным генеративным моделям (через API или локально).  
- Необходим контроль качества сгенерированного текста, чтобы избежать **галлюцинаций** (генерации фактически неверной информации) или потери смысла.  
- Часто требуется ручная фильтрация или дополнительная валидация.

**Пример на Python (демонстрация вызова API Gemini)**:


In [None]:
# Установка необходимых библиотек
!pip install -q transformers sentencepiece

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

# Загружаем модель T5, дообученную на задаче перефразирования
model_name = "ramsrigouthamg/t5_paraphraser"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

def paraphrase_t5(input_text, max_length=256, num_return_sequences=3, num_beams=10):
    """
    Генерирует перефразированные варианты текста с помощью модели T5.
    """
    # Добавляем инструкцию, на которой модель обучалась
    input_text = "paraphrase: " + input_text + " </s>"

    encoding = tokenizer.encode_plus(
        input_text,
        padding='max_length',
        max_length=256,
        return_tensors="pt",
        truncation=True
    )

    input_ids, attention_masks = encoding["input_ids"], encoding["attention_mask"]

    outputs = model.generate(
        input_ids=input_ids,
        attention_mask=attention_masks,
        max_length=max_length,
        do_sample=True,
        top_k=120,
        top_p=0.95,
        early_stopping=True,
        num_return_sequences=num_return_sequences,
        num_beams=num_beams
    )

    paraphrased_texts = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]
    return paraphrased_texts

# === Пример использования ===
original = "Клиент выразил недовольство скоростью обслуживания."
paraphrased_versions = paraphrase_t5(original)

print("Исходный текст:")
print(original)
print("\nАугментированные (перефразированные) версии:")
for i, p in enumerate(paraphrased_versions, 1):
    print(f"{i}. {p}")



## 2. Цели и ограничения аугментации

Аугментация данных, несмотря на свою эффективность, должна применяться обдуманно, с учётом как преимуществ, так и потенциальных рисков.

### 2.1. Цели аугментации

- **Увеличение размера обучающей выборки**:  
  Основная цель — расширить объём данных, особенно когда сбор размеченных примеров затруднён. Больший объём данных способствует более надёжному и обобщающему обучению.

- **Повышение робастности (устойчивости) модели**:  
  Аугментация делает модель менее чувствительной к небольшим изменениям во входных данных (синонимы, перестановки, опечатки), повышая её устойчивость к "шуму".

- **Снижение переобучения (Overfitting)**:  
  Расширение выборки снижает вероятность "запоминания" конкретных примеров, способствуя обобщению.

- **Работа с несбалансированными выборками**:  
  Позволяет искусственно увеличить число примеров миноритарного класса, снижая предвзятость модели в пользу мажоритарного.

### 2.2. Ограничения аугментации

- **Сохранение смысла и метки**:  
  Главный вызов — не исказить семантику или метку. Некорректная замена (например, «банк» → «берег реки») может привести к появлению "шумных" данных, ухудшающих обучение.

- **Качество генерируемых данных**:  
  Генеративные модели могут создавать грамматически некорректные или бессмысленные предложения. Требуется валидация и фильтрация.

- **Избыточность и ограниченное разнообразие**:  
  Чрезмерная аугментация может порождать слишком похожие примеры, не добавляющие реального разнообразия, что не решает проблему переобучения.

- **Вычислительные затраты**:  
  Методы, использующие LLM или многократный перевод, могут быть ресурсоёмкими и медленными.

- **Риск утечки данных (Data Leakage)**:  
  Аугментация должна применяться **только к обучающей выборке**. Если она применяется ко всему датасету до разделения, аугментированные версии тестовых примеров могут попасть в обучение, что исказит оценку модели.




# §4. Работа с несбалансированными выборками: Подробное описание

В задачах обработки естественного языка (NLP), как и в машинном обучении в целом, часто возникает проблема несбалансированных выборок (imbalanced datasets). Это происходит, когда количество примеров одного класса (мажоритарного) значительно превышает количество примеров другого класса (миноритарного).

Типичные сценарии включают:
- обнаружение спама (большинство писем — не спам),
- выявление мошенничества (большинство транзакций — легитимны),
- диагностику редких заболеваний,
- определение редких событий в тексте.

Обучение моделей на таких данных без специальных подходов может привести к неоптимальным результатам, поскольку модель склонна предсказывать мажоритарный класс, игнорируя миноритарный.



## 1. Влияние дисбаланса на обучение моделей

Несбалансированность данных оказывает существенное негативное влияние на процесс обучения и последующую производительность моделей:

- **Предвзятость модели**:  
  Модель, обученная на несбалансированных данных, будет склонна предсказывать мажоритарный класс, поскольку он встречается гораздо чаще. Алгоритмы оптимизации, такие как градиентный спуск, минимизируют общую ошибку, что при дисбалансе означает минимизацию ошибок на мажоритарном классе за счёт миноритарного.

- **Низкая производительность на миноритарном классе**:  
  В результате предвзятости модель будет плохо распознавать примеры миноритарного класса. Это критично в задачах, где миноритарный класс представляет наиболее важные события (например, мошенничество, болезнь, критическая ошибка).

- **Ошибочная оценка производительности**:  
  Традиционные метрики, такие как **общая точность (accuracy)**, могут вводить в заблуждение. Например, если 99% данных относятся к классу "А", а 1% — к классу "Б", модель, всегда предсказывающая "А", достигнет точности 99%. Это ложный показатель её реальной эффективности.  
  Вместо accuracy рекомендуется использовать **F1-меру**, **точность (precision)**, **полноту (recall)** и **ROC-AUC**, особенно в контексте миноритарного класса.



## 2. Стратегии работы с несбалансированными выборками

Для эффективной работы с несбалансированными данными применяются различные стратегии, которые можно разделить на несколько категорий.



### 2.1. Методы передискретизации (Resampling Techniques)

Методы передискретизации направлены на изменение распределения классов в обучающей выборке путём модификации количества примеров.

#### 2.1.1. Oversampling (увеличение количества примеров миноритарного класса)

Методы оверсэмплинга увеличивают количество примеров миноритарного класса, чтобы сбалансировать распределение.

##### • Случайный оверсэмплинг (Random Oversampling)

Простейший подход — случайное дублирование (копирование) существующих примеров миноритарного класса до достижения желаемого соотношения.

**Преимущества**:
- Лёгкость реализации.

**Недостатки**:
- Может привести к **переобучению**, так как модель видит одни и те же примеры несколько раз.
- Не добавляет нового разнообразия в данные.

**Пример на Python (с использованием `imblearn.over_sampling.RandomOverSampler`)**:


In [None]:
from collections import Counter
from imblearn.over_sampling import RandomOverSampler
from sklearn.datasets import make_classification

# Создание несбалансированного синтетического датасета
X, y = make_classification(
    n_samples=1000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=2,
    n_clusters_per_class=1, weights=[0.90, 0.10],
    flip_y=0, random_state=42
)

print(f"Исходное распределение классов: {Counter(y)}")

# Применение случайного оверсэмплинга
ros = RandomOverSampler(random_state=42)
X_resampled, y_resampled = ros.fit_resample(X, y)

print(f"Распределение классов после Random Oversampling: {Counter(y_resampled)}")




##### SMOTE (Synthetic Minority Over-sampling Technique)

Более продвинутый метод, который генерирует **синтетические** (новые, не дублированные) примеры миноритарного класса.  
SMOTE интерполирует между существующими примерами: для каждого примера миноритарного класса находятся его $k$ ближайших соседей (из того же класса), затем новый синтетический пример создается вдоль линии, соединяющей исходный пример и одного из соседей.

**Преимущества**:
- Создаёт новые, "реалистичные" примеры, снижая риск переобучения.
- Добавляет разнообразие в данные.

**Недостатки**:
- Может создавать "шумные" или нерелевантные примеры, особенно если классы сильно перекрываются.
- Уязвим к выбросам.

**Пример на Python (с использованием `imblearn.over_sampling.SMOTE`)**:


In [None]:
from collections import Counter
from imblearn.over_sampling import SMOTE
from sklearn.datasets import make_classification

X, y = make_classification(
    n_samples=1000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=2,
    n_clusters_per_class=1, weights=[0.90, 0.10],
    flip_y=0, random_state=42
)

print(f"Исходное распределение классов: {Counter(y)}")

# Применение SMOTE
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

print(f"Распределение классов после SMOTE: {Counter(y_resampled)}")



#####ADASYN (Adaptive Synthetic Sampling)

Усовершенствование SMOTE, которое **динамически адаптирует** количество синтетических примеров.  
ADASYN генерирует больше синтетических образцов для тех миноритарных примеров, которые **сложнее классифицировать** (т.е. у которых больше мажоритарных соседей).

**Преимущества**:
- Фокусируется на "трудных" зонах классификации.
- Может способствовать более чётким границам решений.

**Недостатки**:
- Как и SMOTE, чувствителен к шуму и выбросам.
- Может переобучаться на сложных, но не релевантных участках.


In [None]:
!pip install -q imbalanced-learn
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
import matplotlib.pyplot as plt
from imblearn.over_sampling import ADASYN

# 1. Генерация несбалансированного датасета
X, y = make_classification(n_samples=1000, n_features=20,
                           n_informative=10, n_redundant=5,
                           n_clusters_per_class=1, weights=[0.9, 0.1],
                           flip_y=0.01, random_state=42)

print("До применения ADASYN:", np.bincount(y))

# 2. Применение ADASYN
adasyn = ADASYN(random_state=42)
X_res, y_res = adasyn.fit_resample(X, y)

print("После применения ADASYN:", np.bincount(y_res))

# 3. Обучение модели до и после балансировки
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)
X_res_train, X_res_test, y_res_train, y_res_test = train_test_split(X_res, y_res, stratify=y_res, random_state=42)

model = RandomForestClassifier(random_state=42)

# До балансировки
model.fit(X_train, y_train)
y_pred_orig = model.predict(X_test)
print("\nОценка модели ДО применения ADASYN:")
print(classification_report(y_test, y_pred_orig))

# После балансировки
model.fit(X_res_train, y_res_train)
y_pred_res = model.predict(X_test)
print("\nОценка модели ПОСЛЕ применения ADASYN:")
print(classification_report(y_test, y_pred_res))

# 4. Визуализация матриц ошибок
fig, axs = plt.subplots(1, 2, figsize=(12, 5))
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_orig, ax=axs[0], colorbar=False)
axs[0].set_title("До ADASYN")
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_res, ax=axs[1], colorbar=False)
axs[1].set_title("После ADASYN")
plt.tight_layout()
plt.show()



### 2.1.2. Undersampling (уменьшение количества примеров мажоритарного класса)

Методы андерсэмплинга уменьшают количество примеров мажоритарного класса для балансировки распределения классов.

#### • Случайное удаление (Random Undersampling)

Простейший подход, заключающийся в случайном удалении примеров из мажоритарного класса до достижения желаемого баланса.

**Преимущества**:
- Лёгкость реализации.
- Уменьшает объём данных, что может ускорить обучение.

**Недостатки**:
- Может привести к потере важной информации, содержащейся в удалённых примерах мажоритарного класса.
- Снижает обобщающую способность модели, особенно если данных и так недостаточно.

**Пример на Python (с использованием `imblearn.under_sampling.RandomUnderSampler`)**:



In [None]:
from collections import Counter
from imblearn.under_sampling import RandomUnderSampler
from sklearn.datasets import make_classification

# Создание несбалансированного синтетического датасета
X, y = make_classification(
    n_samples=1000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=2,
    n_clusters_per_class=1, weights=[0.90, 0.10],
    flip_y=0, random_state=42
)

print(f"Исходное распределение классов: {Counter(y)}")

# Применение случайного андерсэмплинга
rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X, y)

print(f"Распределение классов после Random Undersampling: {Counter(y_resampled)}")




#### Tomek Links

Tomek Links — это пары ближайших соседей разных классов, которые являются взаимно ближайшими друг к другу. То есть, если примеры $x_i$ и $x_j$ образуют Tomek Link, то $x_i$ — ближайший сосед $x_j$, и наоборот, при этом они принадлежат разным классам. Удаление мажоритарных примеров, участвующих в таких парах, помогает "очистить" границы между классами.

**Преимущества**:
- Удаляет шумные или пограничные мажоритарные примеры.
- Улучшает чёткость границы принятия решений.

**Недостатки**:
- Может значительно сократить размер мажоритарного класса.
- Эффективен только вблизи границ классов, не влияет на внутренние области.

**Пример на Python (с использованием `imblearn.under_sampling.TomekLinks`)**:


In [None]:
from collections import Counter
from imblearn.under_sampling import TomekLinks

# Применение Tomek Links
tl = TomekLinks(sampling_strategy='majority')  # Удаляем только мажоритарные образцы
X_resampled, y_resampled = tl.fit_resample(X, y)

print(f"Распределение классов после Tomek Links: {Counter(y_resampled)}")
print(f"Количество образцов после Tomek Links: {len(X_resampled)}")




#### Edited Nearest Neighbors (ENN)

Метод ENN удаляет примеры из мажоритарного класса, если их классификация по методу K-ближайших соседей (KNN) не совпадает с их истинным классом. То есть, если мажоритарный пример окружён в основном миноритарными примерами, он считается "шумным" и удаляется.

**Преимущества**:
- Эффективен для удаления шума и очистки границ классов.
- Повышает качество обучающей выборки.

**Недостатки**:
- Может удалить слишком много данных, особенно при сильном перекрытии классов.
- Чувствителен к выбору параметра $k$.




In [None]:
!pip install -q imbalanced-learn
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
from imblearn.under_sampling import EditedNearestNeighbours

# 1. Генерация несбалансированного датасета
X, y = make_classification(n_samples=1000, n_features=20,
                           n_informative=10, n_redundant=5,
                           n_clusters_per_class=1, weights=[0.9, 0.1],
                           flip_y=0.01, random_state=42)

print("До ENN:", np.bincount(y))

# 2. Применение Edited Nearest Neighbors
enn = EditedNearestNeighbours(n_neighbors=3)  # параметр k (кол-во соседей)
X_res, y_res = enn.fit_resample(X, y)

print("После ENN:", np.bincount(y_res))

# 3. Разделение и обучение модели до и после применения ENN
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)
X_res_train, X_res_test, y_res_train, y_res_test = train_test_split(X_res, y_res, stratify=y_res, random_state=42)

model = RandomForestClassifier(random_state=42)

# До ENN
model.fit(X_train, y_train)
y_pred_orig = model.predict(X_test)
print("\nОценка модели ДО ENN:")
print(classification_report(y_test, y_pred_orig))

# После ENN
model.fit(X_res_train, y_res_train)
y_pred_res = model.predict(X_test)
print("\nОценка модели ПОСЛЕ ENN:")
print(classification_report(y_test, y_pred_res))

# 4. Визуализация матриц ошибок
fig, axs = plt.subplots(1, 2, figsize=(12, 5))
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_orig, ax=axs[0], colorbar=False)
axs[0].set_title("До ENN")
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_res, ax=axs[1], colorbar=False)
axs[1].set_title("После ENN")
plt.tight_layout()
plt.show()


#### NearMiss

Семейство методов андерсэмплинга, которые выбирают подмножество мажоритарных примеров на основе их расстояния до миноритарных. Например:
- **NearMiss-1**: выбирает мажоритарные примеры, среднее расстояние до $k$ ближайших миноритарных соседей которых минимально (т.е. ближайшие к миноритарному классу).
- **NearMiss-2**: выбирает те, у которых максимальное среднее расстояние.
- **NearMiss-3**: для каждого миноритарного примера выбирает ближайших мажоритарных соседей.

**Преимущества**:
- Целенаправленно отбирает релевантные мажоритарные примеры, близкие к границе.
- Сохраняет структуру распределения.

**Недостатки**:
- Вычислительно затратен.
- Может быть чувствителен к выбросам и шуму.




In [None]:
!pip install -q imbalanced-learn
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
from imblearn.under_sampling import NearMiss

# 1. Генерация несбалансированного датасета
X, y = make_classification(n_samples=1000, n_features=20,
                           n_informative=10, n_redundant=5,
                           n_clusters_per_class=1, weights=[0.9, 0.1],
                           flip_y=0.01, random_state=42)

print("До NearMiss:", np.bincount(y))

# 2. Применение NearMiss (можно менять версию: 1, 2 или 3)
near_miss = NearMiss(version=1)  # Или version=2 / version=3
X_res, y_res = near_miss.fit_resample(X, y)

print("После NearMiss:", np.bincount(y_res))

# 3. Разделение и обучение модели до и после
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)
X_res_train, X_res_test, y_res_train, y_res_test = train_test_split(X_res, y_res, stratify=y_res, random_state=42)

model = RandomForestClassifier(random_state=42)

# До андерсэмплинга
model.fit(X_train, y_train)
y_pred_orig = model.predict(X_test)
print("\nОценка модели ДО NearMiss:")
print(classification_report(y_test, y_pred_orig))

# После андерсэмплинга
model.fit(X_res_train, y_res_train)
y_pred_res = model.predict(X_test)
print("\nОценка модели ПОСЛЕ NearMiss:")
print(classification_report(y_test, y_pred_res))

# 4. Визуализация матриц ошибок
fig, axs = plt.subplots(1, 2, figsize=(12, 5))
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_orig, ax=axs[0], colorbar=False)
axs[0].set_title("До NearMiss")
ConfusionMatrixDisplay.from_predictions(y_test, y_pred_res, ax=axs[1], colorbar=False)
axs[1].set_title("После NearMiss")
plt.tight_layout()
plt.show()


### 2.2. Алгоритмические подходы

Эти подходы модифицируют алгоритм обучения или функцию потерь, чтобы учитывать дисбаланс классов, не изменяя при этом обучающие данные.

#### 2.2.1. Взвешивание классов (Cost-Sensitive Learning)

Заключается в присвоении различных весов ошибкам классификации для разных классов. Ошибки на миноритарном классе получают больший вес, что заставляет модель уделять им больше внимания.

**Принцип работы**:
Для каждого класса устанавливается вес, обратно пропорциональный его частоте. Многие алгоритмы (логистическая регрессия, SVM, деревья решений, случайный лес, нейросети) поддерживают параметр `class_weight`.

**Пример на Python (с использованием `LogisticRegression`)**:



In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from collections import Counter

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print(f"Распределение классов в обучающей выборке: {Counter(y_train)}")

# Модель без взвешивания
model_no_weight = LogisticRegression(random_state=42, solver='liblinear')
model_no_weight.fit(X_train, y_train)
y_pred_no_weight = model_no_weight.predict(X_test)
print("\nОтчет классификации без взвешивания:")
print(classification_report(y_test, y_pred_no_weight))

# Модель со взвешиванием
model_with_weight = LogisticRegression(
    random_state=42, solver='liblinear', class_weight='balanced'
)
model_with_weight.fit(X_train, y_train)
y_pred_with_weight = model_with_weight.predict(X_test)
print("\nОтчет классификации со взвешиванием:")
print(classification_report(y_test, y_pred_with_weight))



#### 2.2.2. Ансамблевые методы (Ensemble Methods)

Некоторые ансамблевые методы адаптированы для работы с несбалансированными данными.

- **Bagging с ресэмплингом**:  
  Например, `BalancedBaggingClassifier` (из `imblearn`) создаёт несколько подвыборок с андерсэмплингом мажоритарного класса и обучает отдельный классификатор на каждой. Предсказания агрегируются.

- **Boosting с модификациями**:  
  Алгоритмы вроде **LightGBM** и **CatBoost** имеют встроенные параметры для борьбы с дисбалансом (например, `scale_pos_weight` в LightGBM, `class_weights` в CatBoost).

- **EasyEnsemble / BalanceCascade**:  
  Эти методы (из `imblearn`) создают ансамбль моделей, каждая из которых обучается на сбалансированной подвыборке, полученной случайным андерсэмплингом мажоритарного класса.




### 2.2.3. Сдвиг порога классификации (Threshold Moving)

Большинство классификаторов выдают вероятность принадлежности к классу. По умолчанию, если вероятность превышает 0.5, объект относится к позитивному классу. При несбалансированных данных этот порог может быть неоптимальным.

**Сдвиг порога** заключается в изменении этого значения (например, на 0.3 или 0.7), чтобы увеличить **полноту (recall)** миноритарного класса за счёт возможного снижения **точности (precision)**, или наоборот — в зависимости от целей задачи.

#### Принцип работы:
После обучения модели выбирается новый порог, который оптимизирует желаемую метрику (например, F1-меру, recall) на валидационной выборке, вместо использования стандартного порога 0.5.

#### Пример на Python (сдвиг порога для максимизации F1-меры):


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, precision_recall_curve
from sklearn.datasets import make_classification
import numpy as np

# Генерация несбалансированного датасета
X, y = make_classification(
    n_samples=1000, n_features=2, n_informative=2,
    n_redundant=0, n_repeated=0, n_classes=2,
    n_clusters_per_class=1, weights=[0.90, 0.10],
    flip_y=0, random_state=42
)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# Обучение модели
model = LogisticRegression(random_state=42, solver='liblinear')
model.fit(X_train, y_train)

# Получение вероятностей для позитивного класса
y_probs = model.predict_proba(X_test)[:, 1]

# Построение PR-кривой
precisions, recalls, thresholds = precision_recall_curve(y_test, y_probs)

# Расчёт F1-меры для каждого порога
f1_scores = 2 * (precisions * recalls) / (precisions + recalls + 1e-10)
optimal_threshold_idx = np.argmax(f1_scores)
optimal_threshold = thresholds[optimal_threshold_idx]

print(f"Оптимальный порог для максимизации F1-меры: {optimal_threshold:.3f}")

# Применение нового порога
y_pred_optimal = (y_probs >= optimal_threshold).astype(int)

print("\nОтчет классификации с оптимальным порогом:")
print(classification_report(y_test, y_pred_optimal))

### 2.3. Использование синтетических данных (помимо SMOTE)

Помимо SMOTE, можно использовать более продвинутые методы генерации текста для создания новых примеров миноритарного класса, особенно в NLP.

#### • Генеративные модели (LLM)

Большие языковые модели (LLM), такие как **GPT-3/4**, **Llama**, **Gemini**, могут генерировать новые текстовые примеры миноритарного класса, создавая более разнообразные и реалистичные синтетические данные по сравнению с методами интерполяции.

**Принцип работы**:
- Модель обучается или "подсказывается" на существующих примерах миноритарного класса.
- С помощью промптов (например, *«Перефразируй этот текст, сохранив смысл»*) генерируются новые варианты.
- Возможно применение тонкой настройки (fine-tuning) LLM на данных миноритарного класса для лучшего соответствия стилю и тематике.

**Вызовы**:
- **Контроль качества**: риск галлюцинаций, искажения смысла, грамматических ошибок.
- **Сохранение семантики**: важно, чтобы сгенерированные тексты действительно соответствовали целевому классу.
- **API-ограничения**: как показано в ошибке ниже, доступ к некоторым моделям (например, `gemini-2.0-flash`) может быть ограничен:

> ```
> Error 403 (Forbidden)
> Your client does not have permission to get URL from this server.
> ```

**Рекомендации**:
- Используйте официальные API (Google AI Studio, OpenAI, Anthropic) с валидными ключами.
- Всегда проводите **ручную или автоматическую валидацию** сгенерированных данных.
- Рассмотрите использование **локальных моделей** (например, Llama 3, Mistral) для избежания ограничений доступа.



## 3. Оценка моделей на несбалансированных выборках

При работе с несбалансированными данными общая точность (**accuracy**) не является адекватной метрикой, так как может быть искусственно завышена за счёт предсказания мажоритарного класса. Необходимо использовать метрики, которые уделяют внимание производительности на миноритарном классе.



### 3.1. Матрица ошибок (Confusion Matrix)

Матрица ошибок — это таблица, визуализирующая производительность классификатора по классам.

**Компоненты (для бинарной классификации)**:
- **TP (True Positives)**: правильно предсказанные положительные примеры.
- **TN (True Negatives)**: правильно предсказанные отрицательные примеры.
- **FP (False Positives)**: отрицательные примеры, ошибочно предсказанные как положительные (ошибка I рода).
- **FN (False Negatives)**: положительные примеры, ошибочно предсказанные как отрицательные (ошибка II рода).

**Пример на Python**:



In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification

# Генерация синтетических данных с дисбалансом классов (90% vs 10%)
X, y = make_classification(
    n_samples=100,
    n_features=2,
    n_informative=2,  # только информативные признаки (не больше, чем n_features)
    n_redundant=0,    # убираем избыточные признаки
    weights=[0.90, 0.10],
    random_state=42
)

# Разделение данных на обучающую и тестовую выборки с сохранением пропорций классов
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42,
    stratify=y  # стратификация для сохранения баланса классов
)

# Создание и обучение логистической регрессии
model = LogisticRegression(solver='liblinear', random_state=42)
model.fit(X_train, y_train)

# Предсказание на тестовых данных
y_pred = model.predict(X_test)

# Вычисление и вывод матрицы ошибок
cm = confusion_matrix(y_test, y_pred)
print("Матрица ошибок:")
print(cm)



### 3.2. Метрики оценки качества классификации: Precision, Recall, F1-мера

В задачах классификации, особенно при анализе текстовых данных, одной из ключевых проблем является **несбалансированность классов**, когда количество объектов одного класса существенно превышает количество объектов другого. В таких условиях использование традиционной метрики — **точности (accuracy)** — может оказаться недостаточным и даже вводящим в заблуждение, поскольку модель может достигать высокого значения accuracy за счёт доминирующего класса, игнорируя при этом редкий, но значимый класс.

Для более адекватной оценки качества классификатора применяются такие метрики, как **точность (precision)**, **полнота (recall)** и **F1-мера (F1-score)**. Эти метрики основаны на анализе **матрицы ошибок (confusion matrix)** и позволяют оценить эффективность модели с учётом специфики каждого класса.



#### 3.2.1. Матрица ошибок

Пусть дана задача бинарной классификации, где положительный класс обозначается как \( y = 1 \), а отрицательный — как \( y = 0 \). Тогда матрица ошибок определяется следующим образом:

|                        | Фактически $y = 1$ | Фактически $y = 0$ |
|------------------------|------------------------|------------------------|
| **Предсказано $\hat{y} = 1$** | $TP$               | $FP$               |
| **Предсказано $\hat{y} = 0$** | $FN$               | $TN$               |

где:  
- $TP$ (True Positive) — число правильно классифицированных положительных примеров;  
- $FP$ (False Positive) — число отрицательных примеров, ошибочно отнесённых к положительному классу;  
- $FN$ (False Negative) — число положительных примеров, ошибочно отнесённых к отрицательному классу;  
- $TN$ (True Negative) — число правильно классифицированных отрицательных примеров.

На основе этих величин определяются основные метрики качества классификации.



#### 3.2.2. Точность (Precision)

**Точность** отражает долю правильно предсказанных положительных примеров среди всех объектов, отнесённых моделью к положительному классу. Она определяется как:

$$
\text{Precision} = \frac{TP}{TP + FP}
$$

Точность характеризует **достоверность предсказания** положительного класса. Высокое значение precision означает, что модель редко ошибается, когда классифицирует объект как положительный. Эта метрика особенно важна в задачах, где **ложные срабатывания (FP)** имеют высокую стоимость.

*Пример.* В задаче фильтрации спама высокая точность означает, что в папку «спам» попадают в основном действительно спам-сообщения, а важные письма не теряются.



#### 3.2.3. Полнота (Recall / Sensitivity / True Positive Rate)

**Полнота** показывает долю правильно классифицированных положительных примеров среди всех реально положительных объектов:

$$
\text{Recall} = \frac{TP}{TP + FN}
$$

Полнота отражает **способность модели выявлять все положительные случаи**. Высокий recall означает, что модель пропускает минимальное число объектов положительного класса. Эта метрика критична в задачах, где **пропуск положительного случая (FN)** недопустим.

*Пример.* В задаче выявления негативных отзывов о продукте высокий recall позволяет своевременно реагировать на жалобы клиентов.



#### 3.2.4. F1-мера (F1-score)

**F1-мера** представляет собой **гармоническое среднее** между precision и recall и используется для комплексной оценки качества модели в условиях необходимости баланса между достоверностью и полнотой предсказаний:

$$
\text{F1-score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$$

F1-мера достигает максимума при одновременно высоких значениях precision и recall. Она особенно эффективна при оценке моделей на **несбалансированных выборках**, где доминирующий класс может маскировать неудовлетворительную работу классификатора по отношению к редкому классу.



#### 3.2.5. Пример расчёта метрик в задаче классификации текстов

Рассмотрим задачу классификации отзывов на продукты по признаку эмоциональной окраски:  
- Положительный класс ($y = 1$) — негативные отзывы;  
- Отрицательный класс ($y = 0$) — позитивные отзывы.

Объём тестовой выборки — 1000 экземпляров, из них:
- $200$ — негативные отзывы (фактические $y = 1$);
- $800$ — позитивные отзывы (фактические $y = 0$).

Результаты работы классификатора:
- $TP = 150$ — правильно распознаны как негативные;
- $FN = 50$ — ошибочно отнесены к позитивным;
- $FP = 100$ — позитивные отзывы ошибочно классифицированы как негативные;
- $TN = 700$ — правильно распознаны как позитивные.

Вычислим метрики:

1. **Точность (Precision)**:
$$
\text{Precision} = \frac{150}{150 + 100} = \frac{150}{250} = 0{,}600
$$

2. **Полнота (Recall)**:
$$
\text{Recall} = \frac{150}{150 + 50} = \frac{150}{200} = 0{,}750
$$

3. **F1-мера**:
$$
\text{F1} = 2 \times \frac{0{,}600 \times 0{,}750}{0{,}600 + 0{,}750} = 2 \times \frac{0{,}45}{1{,}35} \approx 0{,}667
$$

Полученные значения свидетельствуют о **среднем уровне качества модели**: она находит 75 % негативных отзывов, но при этом только 60 % её «негативных» предсказаний действительно являются таковыми. F1-мера, равная 0,667, указывает на необходимость улучшения модели, особенно за счёт снижения числа ложноположительных срабатываний.



#### 3.2.6. Реализация в Python

Для расчёта метрик в библиотеке `scikit-learn` предусмотрены функции `precision_score`, `recall_score` и `f1_score`. Ниже приведён пример кода:


In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, classification_report

# Истинные и предсказанные метки
y_true = [1]*200 + [0]*800
y_pred = [1]*150 + [0]*50 + [1]*100 + [0]*700

# Расчёт метрик для положительного класса
precision = precision_score(y_true, y_pred, pos_label=1)
recall = recall_score(y_true, y_pred, pos_label=1)
f1 = f1_score(y_true, y_pred, pos_label=1)

print(f"Precision: {precision:.3f}")
print(f"Recall:    {recall:.3f}")
print(f"F1-score:  {f1:.3f}")

# Полный отчёт
print("\nClassification Report:")
print(classification_report(y_true, y_pred, target_names=['Позитив', 'Негатив']))

Пример 2.

In [None]:
from sklearn.metrics import classification_report, precision_score, recall_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

# Создаем синтетический несбалансированный датасет
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.9, 0.1], random_state=42)

# Разделяем на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучаем модель логистической регрессии
model = LogisticRegression()
model.fit(X_train, y_train)

# Получаем предсказания
y_pred = model.predict(X_test)

# Вычисляем метрики по отдельности
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("Отдельные метрики:")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-score: {f1:.2f}\n")

# Выводим полный отчет классификации
print("Полный отчет классификации:")
print(classification_report(y_test, y_pred, target_names=['Class 0', 'Class 1']))





#### 3.2.7. Области применения метрик в NLP

Выбор приоритетной метрики зависит от предметной области и последствий ошибок классификации:

- **Высокий precision** требуется в задачах, где **ложные срабатывания** критичны:  
  — фильтрация спама;  
  — автоматическая отправка уведомлений по негативным отзывам.

- **Высокий recall** необходим в задачах, где **пропуск положительного случая** опасен:  
  — выявление токсичных комментариев;  
  — диагностика по медицинским текстам.

- **F1-score** используется как **обобщающая метрика** при необходимости компромисса между precision и recall, особенно при сравнении моделей или подборе гиперпараметров.



Таким образом, Precision, recall и F1-мера являются фундаментальными метриками оценки качества бинарных и многоклассовых классификаторов, особенно в условиях несбалансированных данных. В задачах обработки естественного языка (NLP), таких как классификация тональности, детекция спама или тематическая сегментация текстов, эти метрики позволяют получить объективную оценку эффективности модели с учётом специфики распределения классов и стоимости различных типов ошибок. Использование данной группы метрик способствует более осознанному выбору и настройке алгоритмов машинного обучения.

> В отчёте особенно важно анализировать **precision**, **recall** и **F1-score** для **миноритарного класса** (обычно класс 1), так как именно его качество определяет эффективность модели в задачах с дисбалансом.




### 3.3. ROC-AUC и PR-AUC: Оценка производительности на несбалансированных данных

Эти метрики оценивают производительность классификатора по всем возможным порогам классификации.

#### • ROC-AUC (Receiver Operating Characteristic — Area Under the Curve)

ROC-AUC — это площадь под кривой, построенной по значениям **True Positive Rate (TPR)** на оси Y и **False Positive Rate (FPR)** на оси X при различных порогах.

Формулы:
$$
\text{TPR (Recall)} = \frac{TP}{TP + FN}
$$
$$
\text{FPR} = \frac{FP}{FP + TN}
$$

**Интерпретация**:
- Значение ROC-AUC близко к **1.0** — модель отлично различает классы.
- Значение около **0.5** — модель работает как случайный угадыватель.
- Значение ниже 0.5 — модель работает хуже случайной.

**Плюсы**:
- ROC-AUC устойчив к дисбалансу классов.
- Хорошо показывает общую способность модели к разделению классов.

**Минусы**:
- Может быть **малоинформативен при сильном дисбалансе**, так как FPR зависит от большого числа TN (мажоритарный класс), что может "замаскировать" плохую производительность на миноритарном классе.



#### • PR-AUC (Precision-Recall Area Under the Curve)

PR-AUC — площадь под кривой, где по оси Y откладывается **Precision**, а по оси X — **Recall**.

Формула:
$$
\text{Precision} = \frac{TP}{TP + FP}
$$

**Интерпретация**:
- PR-AUC близок к 1.0 — высокая точность и полнота.
- Близок к 0 — плохая производительность.

**Плюсы**:
- **Более информативен для сильно несбалансированных данных**, особенно когда миноритарный класс — положительный (например, мошенничество, болезнь).
- Не зависит от количества истинно отрицательных примеров (TN), что делает его чувствительным к качеству предсказаний на редком классе.

**Рекомендация**:  
Для сильно несбалансированных данных **PR-AUC предпочтительнее ROC-AUC**.



#### Пример на Python (оценка ROC-AUC и PR-AUC):

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (roc_curve, auc, precision_recall_curve,
                             average_precision_score, roc_auc_score)
from sklearn.utils.class_weight import compute_class_weight

# 1. Генерация несбалансированных данных
X, y = make_classification(
    n_samples=10000,
    n_features=20,
    n_informative=10,
    n_redundant=10,
    n_clusters_per_class=1,
    weights=[0.9, 0.1],  # 90% отрицательных, 10% положительных
    flip_y=0.01,
    random_state=42
)

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# 2. Обучение модели (с учётом дисбаланса)
model = RandomForestClassifier(class_weight='balanced', random_state=42)
model.fit(X_train, y_train)

# Получение вероятностей положительного класса
y_proba = model.predict_proba(X_test)[:, 1]

# 3. Вычисление ROC-AUC
fpr, tpr, thresholds_roc = roc_curve(y_test, y_proba)
roc_auc = auc(fpr, tpr)

# 4. Вычисление PR-AUC
precision, recall, thresholds_pr = precision_recall_curve(y_test, y_proba)
pr_auc = average_precision_score(y_test, y_proba)  # Это и есть PR-AUC

# 5. Визуализация
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))

# ROC Curve
ax1.plot(fpr, tpr, color='blue', lw=2, label=f'ROC Curve (AUC = {roc_auc:.3f})')
ax1.plot([0, 1], [0, 1], color='gray', lw=1, linestyle='--', label='Random Classifier')
ax1.set_xlim([0.0, 1.0])
ax1.set_ylim([0.0, 1.05])
ax1.set_xlabel('False Positive Rate (FPR)')
ax1.set_ylabel('True Positive Rate (TPR)')
ax1.set_title('ROC Curve')
ax1.legend(loc="lower right")
ax1.grid(True, alpha=0.3)

# PR Curve
ax2.plot(recall, precision, color='green', lw=2, label=f'PR Curve (AUC = {pr_auc:.3f})')
ax2.set_xlim([0.0, 1.0])
ax2.set_ylim([0.0, 1.05])
ax2.set_xlabel('Recall (TPR)')
ax2.set_ylabel('Precision')
ax2.set_title('Precision-Recall Curve')
ax2.legend(loc="lower left")
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 6. Вывод метрик
print(f"ROC-AUC: {roc_auc:.4f}")
print(f"PR-AUC (Average Precision): {pr_auc:.4f}")

# Интерпретация
if roc_auc > 0.9:
    print("ROC-AUC: Модель отлично разделяет классы.")
elif roc_auc > 0.7:
    print("ROC-AUC: Умеренная производительность.")
elif roc_auc > 0.5:
    print("ROC-AUC: Слабая производительность.")
else:
    print("ROC-AUC: Хуже случайной модели.")

if pr_auc > 0.5:
    print("PR-AUC: Хорошее качество предсказаний для положительного класса.")
else:
    print("PR-AUC: Низкое качество обнаружения положительного класса.")

##Функция `make_classification` из библиотеки `scikit-learn`

### Введение

В процессе разработки, тестирования и анализа алгоритмов машинного обучения часто возникает необходимость в использовании **контролируемых и воспроизводимых наборов данных**. Реальные данные могут содержать шум, пропуски, смещения и сложные зависимости, что затрудняет интерпретацию поведения моделей. Для решения этой задачи применяются **методы генерации синтетических данных**, позволяющие исследовать поведение алгоритмов в условиях, заданных априори.

Одной из наиболее востребованных функций для генерации искусственных данных в контексте задач классификации является `make_classification` из библиотеки `scikit-learn`.



Функция `make_classification` предназначена для **синтетической генерации многомерных наборов данных**, предназначенных для обучения и оценки алгоритмов бинарной или многоклассовой классификации. Она позволяет контролировать структуру данных, включая количество информативных признаков, степень разделения классов, наличие шума, дисбаланс классов и корреляции между признаками.

Основные области применения:
- Исследование устойчивости моделей к дисбалансу классов;
- Анализ влияния шума в признаках и метках на качество классификации;
- Визуализация и демонстрация принципов работы метрик (например, ROC-AUC, PR-AUC);
- Отладка и тестирование новых алгоритмов.



Генерация данных осуществляется на основе **модели смеси многомерных нормальных распределений**. Каждый класс моделируется как одна или несколько гауссовских компонент (кластеров), центры которых разнесены в признаковом пространстве. Объекты, принадлежащие каждому классу, генерируются вокруг соответствующих центров с использованием многомерного нормального распределения.

Для повышения реалистичности модели вводятся:
- **Зависимые признаки** — линейные комбинации информативных признаков;
- **Шумовые признаки** — независимые случайные величины, не несущие информативной нагрузки;
- **Шум в метках** — случайное изменение истинной метки с заданной вероятностью, имитирующее ошибки разметки.

Таким образом, синтетический набор данных имитирует сложную структуру реальных данных, включая избыточность, шум и неидеальную разделимость классов.


Функция `make_classification` имеет следующий синтаксис:

```python
from sklearn.datasets import make_classification

X, y = make_classification(
    n_samples=100,
    n_features=20,
    n_informative=2,
    n_redundant=2,
    n_repeated=0,
    n_classes=2,
    n_clusters_per_class=1,
    weights=None,
    flip_y=0.01,
    class_sep=1.0,
    hypercube=True,
    shift=0.0,
    scale=1.0,
    shuffle=True,
    random_state=None
)
```

#### Описание ключевых параметров:

| Параметр | Описание |
|--------|--------|
| `n_samples` | Общее количество объектов в выборке. |
| `n_features` | Общее число признаков (размерность признакового пространства). |
| `n_informative` | Число признаков, **информативных** для разделения классов (непосредственно участвуют в формировании границы принятия решений). |
| `n_redundant` | Число признаков, являющихся **линейными комбинациями** информативных признаков. |
| `n_repeated` | Число признаков, являющихся **дубликатами** уже существующих (случайно перемешанных). |
| `n_classes` | Количество классов (по умолчанию 2 — бинарная классификация). |
| `n_clusters_per_class` | Число кластеров (гауссовских компонент) на один класс. |
| `weights` | Список долей объектов для каждого класса. Используется для моделирования **дисбаланса классов**. Пример: `weights=[0.9, 0.1]` означает, что 90% объектов принадлежат первому классу, 10% — второму. |
| `flip_y` | Вероятность **инверсии метки** (ошибки разметки). Имитирует шум в целевой переменной. |
| `class_sep` | Параметр, контролирующий **степень разделения классов**. Чем выше значение, тем лучше классы разделяются. При малых значениях классы могут сильно перекрываться. |
| `random_state` | Сид для генератора случайных чисел. Обеспечивает **воспроизводимость** результатов. |

> ⚠️ Примечание: Сумма `n_informative + n_redundant + n_repeated` не должна превышать `n_features`. Остальные признаки будут заполнены шумом.




Рассмотрим пример генерации синтетического набора данных с явно выраженным дисбалансом классов, что типично для задач обнаружения редких событий (например, мошенничества, редких заболеваний):

```python
from sklearn.datasets import make_classification
import numpy as np

X, y = make_classification(
    n_samples=1000,
    n_features=10,
    n_informative=5,
    n_redundant=2,
    n_classes=2,
    weights=[0.8, 0.2],      # Дисбаланс: 80% / 20%
    flip_y=0.01,             # 1% шума в метках
    class_sep=0.8,           # Умеренное разделение классов
    random_state=42
)

print(f"Размер выборки: {X.shape}")
print(f"Число классов: {len(np.unique(y))}")
print(f"Распределение по классам:\n{np.bincount(y)}")
```

**Результат:**
```
Размер выборки: (1000, 10)
Число классов: 2
Распределение по классам:
[800 200]
```



###Преимущества и ограничения

#### Преимущества:
- Полный контроль над структурой данных;
- Возможность моделирования дисбаланса, шума и коррелированных признаков;
- Поддержка многоклассовой классификации;
- Воспроизводимость при фиксированном `random_state`.

#### Ограничения:
- Все признаки — непрерывные (нельзя генерировать категориальные);
- Предполагается нормальное распределение внутри кластеров;
- Не учитывает сложные зависимости, характерные для реальных данных (например, выбросы, мультимодальность, временные зависимости).



###Рекомендации по использованию

1. **Для обучения и демонстрации**: `make_classification` идеально подходит для иллюстрации концепций машинного обучения, таких как переобучение, оценка метрик, влияние дисбаланса.
2. **Для тестирования моделей**: позволяет проводить сравнительный анализ алгоритмов в контролируемых условиях.
3. **Для исследования метрик**: особенно полезен при изучении поведения PR-AUC и ROC-AUC на несбалансированных данных.

> 💡 **Рекомендация**: Всегда используйте параметр `random_state` для обеспечения воспроизводимости экспериментов.



### 3.4. Метрики качества в задачах мультиклассовой классификации

В задачах классификации с более чем двумя классами оценка качества модели требует применения специализированных метрик, адаптированных к многомерной структуре выходов. Особую значимость приобретает выбор стратегии агрегации частных метрик по отдельным классам, особенно в условиях несбалансированности распределения объектов по классам. Ниже рассматриваются три основные стратегии усреднения метрик: микро-усреднение (micro-average), макро-усреднение (macro-average) и взвешенное усреднение (weighted-average).



#### 3.4.1. Micro-average (микро-усреднение)

Микро-усреднение основано на **агрегации значений истинно положительных (TP), ложно положительных (FP) и ложно отрицательных (FN) результатов** по всем классам перед вычислением обобщённых метрик. Данный подход эквивалентен усреднению на уровне отдельных объектов и придаёт больший вес классам, представленным большим количеством примеров.

Пусть $C$ — число классов, $\text{TP}_i$, $\text{FP}_i$, $\text{FN}_i$ — соответствующие значения для $i$-го класса. Тогда суммарные значения вычисляются следующим образом:

$$
\text{TP}_{\text{micro}} = \sum_{i=1}^{C} \text{TP}_i, \quad
\text{FP}_{\text{micro}} = \sum_{i=1}^{C} \text{FP}_i, \quad
\text{FN}_{\text{micro}} = \sum_{i=1}^{C} \text{FN}_i
$$

На их основе определяются обобщённые метрики:

$$
\text{Precision}_{\text{micro}} = \frac{\text{TP}_{\text{micro}}}{\text{TP}_{\text{micro}} + \text{FP}_{\text{micro}}}
$$

$$
\text{Recall}_{\text{micro}} = \frac{\text{TP}_{\text{micro}}}{\text{TP}_{\text{micro}} + \text{FN}_{\text{micro}}}
$$

$$
F1_{\text{micro}} = 2 \cdot \frac{\text{Precision}_{\text{micro}} \cdot \text{Recall}_{\text{micro}}}{\text{Precision}_{\text{micro}} + \text{Recall}_{\text{micro}}}
$$

**Свойства микро-усреднения:**
- Учитывает объём каждого класса, что делает метрику чувствительной к доминирующим классам.
- В случае полного учёта всех классов выполняется равенство:  
  $$
  \text{Precision}_{\text{micro}} = \text{Recall}_{\text{micro}} = F1_{\text{micro}}
  $$
- Применяется, когда важна **общая эффективность модели** на всём наборе данных, например, в задачах с приоритетом на глобальную точность.



#### 3.4.2. Macro-average (макро-усреднение)

Макро-усреднение предполагает **независимое вычисление метрик для каждого класса**, после чего находится их **арифметическое среднее**. При этом все классы учитываются с равным весом, независимо от их размера.

Формально:

$$
\text{Precision}_{\text{macro}} = \frac{1}{C} \sum_{i=1}^{C} P_i, \quad \text{где } P_i = \frac{\text{TP}_i}{\text{TP}_i + \text{FP}_i}
$$

$$
\text{Recall}_{\text{macro}} = \frac{1}{C} \sum_{i=1}^{C} R_i, \quad \text{где } R_i = \frac{\text{TP}_i}{\text{TP}_i + \text{FN}_i}
$$

$$
F1_{\text{macro}} = \frac{1}{C} \sum_{i=1}^{C} F1_i, \quad \text{где } F1_i = 2 \cdot \frac{P_i \cdot R_i}{P_i + R_i}
$$

**Свойства макро-усреднения:**
- Обеспечивает равный вклад каждого класса в итоговую метрику.
- Чувствителен к производительности на **миноритарных классах**.
- Рекомендуется при решении задач с **сильным дисбалансом классов**, когда критично качество распознавания редких категорий.



#### 3.4.3. Weighted-average (взвешенное усреднение)

Взвешенное усреднение представляет собой компромисс между микро- и макро-подходами. Оно учитывает **распределение числа объектов по классам**, присваивая каждому классу вес, пропорциональный его доле в общей выборке.

Пусть $w_i = \frac{N_i}{N}$, где $N_i$ — количество объектов класса $i$, $N$ — общее число объектов. Тогда:

$$
\text{Precision}_{\text{weighted}} = \sum_{i=1}^{C} w_i \cdot P_i
$$

$$
\text{Recall}_{\text{weighted}} = \sum_{i=1}^{C} w_i \cdot R_i
$$

$$
F1_{\text{weighted}} = \sum_{i=1}^{C} w_i \cdot F1_i
$$

**Свойства взвешенного усреднения:**
- Учитывает как размер класса, так и его вклад в качество классификации.
- Подходит для ситуаций, когда необходимо сбалансированно учитывать как частоту класса, так и качество его предсказания.
- Широко используется в прикладных задачах, где полное игнорирование размера классов неприемлемо, но и малые классы не должны быть полностью проигнорированы.



### 3.4.4. Практическая реализация в Python

Для демонстрации применения различных стратегий усреднения рассмотрим пример на основе синтетических данных с несбалансированным распределением классов.


In [None]:
from sklearn.metrics import classification_report, precision_score, recall_score, f1_score
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Генерация несбалансированных данных
X, y = make_classification(
    n_samples=1000,
    n_classes=3,
    n_informative=5,
    n_redundant=1,
    n_clusters_per_class=1,
    weights=[0.8, 0.15, 0.05],  # дисбаланс классов
    random_state=42
)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# Обучение модели
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# Вывод отчёта по метрикам
print("Classification Report:")
print(classification_report(y_test, y_pred))

# Явное вычисление усреднённых метрик
print("\nЯвные значения метрик:")
print(f"Micro — Precision: {precision_score(y_test, y_pred, average='micro'):.3f}, "
      f"Recall: {recall_score(y_test, y_pred, average='micro'):.3f}, "
      f"F1: {f1_score(y_test, y_pred, average='micro'):.3f}")

print(f"Macro — Precision: {precision_score(y_test, y_pred, average='macro'):.3f}, "
      f"Recall: {recall_score(y_test, y_pred, average='macro'):.3f}, "
      f"F1: {f1_score(y_test, y_pred, average='macro'):.3f}")

print(f"Weighted — Precision: {precision_score(y_test, y_pred, average='weighted'):.3f}, "
      f"Recall: {recall_score(y_test, y_pred, average='weighted'):.3f}, "
      f"F1: {f1_score(y_test, y_pred, average='weighted'):.3f}")





### 3.4.5. Рекомендации по выбору стратегии усреднения

| Стратегия       | Преимущества | Недостатки | Рекомендуется при |
|------------------|-------------|-----------|-------------------|
| **Micro**        | Учитывает объём классов, инвариантна к дисбалансу на уровне объектов | Может маскировать плохое качество на малых классах | Оценке общей эффективности модели |
| **Macro**        | Даёт равный вес всем классам, чувствителен к миноритарным | Может переоценивать ошибки в малых классах | Сильном дисбалансе и важности редких классов |
| **Weighted**     | Балансирует между размером и качеством класса | Менее чувствителен к миноритарным классам, чем макро | Необходимости учесть распределение классов |



Выбор стратегии усреднения метрик в мультиклассовой классификации является важным этапом валидации модели. Он должен определяться характером задачи, степенью дисбаланса классов и приоритетами в интерпретации результатов. Корректное использование микро-, макро- и взвешенных метрик позволяет получить более полное и объективное представление о поведении модели в реальных условиях.



## 4. Лучшие практики и соображения

- **Комбинирование техник**:  
  Часто наилучшие результаты достигаются при комбинации методов, например:  
  **SMOTE + взвешивание классов**, или **анализ сдвига порога** после андерсэмплинга.

- **Кросс-валидация**:  
  При использовании ресэмплинга (SMOTE, undersampling и др.) **применяйте его только внутри обучающих фолдов**.  
  Никогда не применяйте ресэмплинг ко всему датасету до разделения — это вызовет **утечку данных** и завышенную оценку.  
  Используйте `imblearn.pipeline.Pipeline` для корректной интеграции.

- **Выбор метрик**:  
  Всегда используйте **Precision, Recall, F1-score, PR-AUC**.  
  Избегайте зависимости от **общей точности (accuracy)** в несбалансированных задачах.

- **Доменные знания**:  
  В задачах, где **пропуск события критичен** (например, диагностика болезней), максимизируйте **Recall**.  
  Если **ложные срабатывания дорогостоящи** (например, блокировка легитимных транзакций), фокусируйтесь на **Precision**.

- **Итеративный подход**:  
  Экспериментируйте с различными стратегиями, оценивайте их влияние и выбирайте ту, что лучше всего соответствует целям проекта.



# §5. Проблема Data Leakage в NLP: Полное описание

В процессе разработки моделей обработки естественного языка (NLP) одной из наиболее коварных и трудноуловимых проблем является **утечка данных (Data Leakage)**. Это явление возникает, когда информация из тестовой или валидационной выборки непреднамеренно «просачивается» в обучающую выборку. Результатом такой утечки становится завышенная, чрезмерно оптимистичная оценка производительности модели на тестовых данных, что создаёт иллюзию высокой эффективности — иллюзию, которая не подтверждается при развертывании модели в реальных условиях на новых, ранее не виданных данных.

Понимание механизмов утечки данных и методов её предотвращения критически важно для создания надёжных и обобщающих NLP-систем.


## 1. Определение Data Leakage

**Утечка данных** — это ситуация, при которой модель машинного обучения получает доступ к информации, которая была бы недоступна ей во время реального применения (инференса). Эта «недоступная» информация может быть связана с целевой переменной или с данными, которые должны быть строго отделены для целей тестирования.

Таким образом, модель «подсматривает» ответы или получает неявные подсказки о данных, которые она должна предсказывать, что приводит к искусственному завышению её производительности на этапе разработки и тестирования.

Утечка может быть:
- **явной** (например, прямое включение тестовых примеров в обучающую выборку),
- **скрытой и тонкой**, проявляющейся через неочевидные связи в предобработке, инженерии признаков или выборе алгоритмов.



## 2. Типы и примеры Data Leakage в NLP

Утечка данных может проявляться на различных этапах NLP-пайплайна. Ниже — наиболее распространённые сценарии.

### 2.1. Утечка при разделении данных (Data Splitting Leakage)

Одна из самых частых форм утечки, возникающая из-за неправильной последовательности операций при подготовке данных.

#### • Некорректная предобработка до разделения

Если такие операции, как токенизация, удаление стоп-слов, стемминг, лемматизация, построение словаря или вычисление статистик (например, TF-IDF), выполняются на всём корпусе **до** разделения на обучающую, валидационную и тестовую выборки, происходит утечка. Модель получает информацию о словах и их частотах из тестовых данных, которой она не должна обладать.

**Пример: вычисление TF-IDF на всём датасете**
- Обучающий документ: «Кот спит на диване».
- Тестовый документ: «Собака спит на полу».

Если TF-IDF рассчитывается на всём корпусе, слово «спит» получит IDF, основанный на его присутствии в обоих документах. Но если бы разделение было сделано до вычисления, IDF «спит» в обучающей выборке был бы выше (только в одном документе). Модель, таким образом, «знает» о слове из будущего — это и есть утечка.

#### Временная утечка (Temporal Leakage)

Возникает в задачах с временной зависимостью (анализ новостей, прогнозирование, эволюция языка), когда будущие данные используются для обучения модели, предсказывающей прошлое.

**Пример**:  
Модель обучается на твитах за 2023 и 2024 годы, а тестируется на твитах за 2024 год. Если часть данных за 2024 год попала в обучение, модель использует «будущее» для предсказания «прошлого» — нарушение причинности.

#### • Групповая утечка (Group Leakage)

Происходит, когда одна и та же группа (пользователь, автор, продукт) встречается в обучающей и тестовой выборках.

**Пример**:  
Один пользователь написал 10 отзывов. 7 попали в обучение, 3 — в тест. Модель может «запомнить» стиль этого пользователя, а не научиться обобщать по признакам. Это приведёт к завышенной оценке, но плохой обобщающей способности на новых пользователях.


### 2.2. Утечка в инженерии признаков (Feature Engineering Leakage)

Происходит, когда признаки создаются с использованием информации, недоступной во время инференса.

#### • Признаки, основанные на целевой переменной

Если признак строится на основе метки, которую модель должна предсказывать, это прямая утечка.

**Пример**:  
В задаче классификации спама вы создаете признак «содержит ли письмо слово "победитель" в тех письмах, которые были помечены как спам». Такой признак использует информацию, доступную только после разметки — это утечка.

#### • Признаки из будущей информации

Использование данных, которые будут известны только после момента предсказания.

**Пример**:  
Предсказание популярности статьи до публикации, но с использованием признака «количество репостов за первую неделю». Этот признак недоступен до выхода статьи — его нельзя использовать при обучении.



### 2.3. Утечка в кросс-валидации (Cross-Validation Leakage)

Если предобработка или выбор признаков выполняются **вне** циклов кросс-валидации, информация из валидационных фолдов может повлиять на обучение.

**Пример**:  
Вы определяете оптимальное количество n-грамм для TF-IDF на всём датасете **до** кросс-валидации. Это означает, что информация из тестовых фолдов уже повлияла на выбор гиперпараметра — нарушение изоляции.

✅ **Решение**: Используйте `Pipeline` (например, `imblearn.pipeline.Pipeline` или `sklearn.pipeline.Pipeline`), чтобы включить предобработку внутрь процесса валидации.



### 2.4. Утечка через внешние данные (External Data Leakage)

Использование предварительно обученных моделей или эмбеддингов, обученных на корпусах, которые могут содержать данные из вашей тестовой выборки.

**Пример**:  
Использование Word2Vec-эмбеддингов, обученных на большом интернет-корпусе, который мог включать часть вашего тестового набора.

⚠️ **Примечание**:  
Эта утечка часто неизбежна, но её нужно **осознавать**. Польза от предобученных моделей обычно перевешивает риски, но в критических задачах (например, бенчмарки) следует использовать только модели, обученные на данных, строго отделённых от тестового набора.


## 3. Последствия Data Leakage

Утечка данных может привести к серьёзным проблемам:

- **Чрезмерно оптимистичная оценка производительности**:  
  Модель показывает высокую точность на тесте, но проваливается в реальности.

- **Плохая обобщающая способность**:  
  Модель не учится истинным закономерностям, а запоминает специфические паттерны тестовой выборки.

- **Потеря доверия**:  
  Неудачное развертывание модели подрывает доверие к команде и методологии.

- **Неэффективное использование ресурсов**:  
  Время и деньги тратятся на оптимизацию модели, которая не будет работать в продакшене.



## 4. Методы предотвращения Data Leakage

Предотвращение утечки требует строгой дисциплины и соблюдения правильной последовательности операций.

### 4.1. Строгое разделение данных

- Разделяйте данные на **обучающую**, **валидационную** и **тестовую** выборки **до** любой предобработки.
- Тестовая выборка должна быть **полностью изолирована** и использоваться **только один раз** — для финальной оценки.
- Валидационная выборка используется для настройки гиперпараметров и выбора модели.

### 4.2. Изолированная предобработка

- Все операции (токенизация, построение словаря, TF-IDF, нормализация) должны выполняться **только на обучающей выборке**, а затем **применяться** к валидационной и тестовой.
- Никогда не используйте статистики, вычисленные на всём датасете.

### 4.3. Пайплайны и кросс-валидация

- Используйте **конвейеры (pipelines)**, включающие предобработку и модель, чтобы гарантировать, что преобразования применяются только к обучающим фолдам внутри кросс-валидации.
- Это исключает утечку при выборе признаков и гиперпараметров.

### 4.4. Временная валидация

- В задачах с временной зависимостью используйте **хронологическое разделение**: обучение на более ранних данных, тестирование на более поздних.
- Никогда не используйте случайное перемешивание, если данные упорядочены во времени.

### 4.5. Контроль групп

- При наличии групп (пользователи, авторы и т.д.) используйте **групповое разделение (GroupShuffleSplit, GroupKFold)**, чтобы одна группа не попадала и в обучение, и в тест.



**Заключение**  
Data Leakage — это не просто техническая ошибка, а **фундаментальное нарушение принципов машинного обучения**. Её предотвращение требует дисциплины, строгой архитектуры пайплайна и постоянной бдительности. Только так можно обеспечить, что модель действительно обобщает, а не «подглядывает».


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# =============================================================================
# 1. Генерация и загрузка данных
# =============================================================================

# Пример размеченных текстовых данных для задачи бинарной классификации
# (анализ тональности: позитивный/негативный)
data = {
    'text': [
        "Это хороший фильм",
        "Мне не понравился этот фильм",
        "Отличная игра актеров",
        "Скучный сюжет и плохая режиссура",
        "Рекомендую к просмотру",
        "Ужасный фильм, пустая трата времени",
        "Интересный поворот событий",
        "Не стоит смотреть",
        "Захватывающий сюжет",
        "Очень плохое кино"
    ],
    'sentiment': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]  # 1 — позитивный, 0 — негативный
}

# Преобразование в DataFrame
df = pd.DataFrame(data)

print("Исходные данные:")
print(df.head())
print(f"\nРазмер датасета: {df.shape[0]} образцов, {df.shape[1]} столбца(ов)")

# =============================================================================
# 2. Разделение выборки на обучающую и тестовую
# =============================================================================

# Важно: разделение выполняется ДО векторизации, чтобы избежать утечки данных
X = df['text']  # Признаки (тексты)
y = df['sentiment']  # Целевая переменная

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,              # 30% данных — тестовая выборка
    random_state=42,            # Воспроизводимость
    stratify=y                  # Сохранение пропорций классов в обеих выборках
)

print("\n" + "="*60)
print("РАЗМЕРЫ ВЫБОРОК ПОСЛЕ РАЗДЕЛЕНИЯ")
print("="*60)
print(f"Обучающая выборка (текст): {len(X_train)} объектов")
print(f"Тестовая выборка (текст):   {len(X_test)} объектов")
print(f"Распределение в обучающей: {pd.Series(y_train).value_counts().sort_index().to_dict()}")
print(f"Распределение в тестовой:   {pd.Series(y_test).value_counts().sort_index().to_dict()}")

# =============================================================================
# 3. Векторизация текстов с использованием TF-IDF
# =============================================================================

# Инициализация векторизатора TF-IDF
vectorizer = TfidfVectorizer(
    lowercase=True,           # Приведение к нижнему регистру
    stop_words=None,          # Можно добавить стоп-слова при необходимости
    ngram_range=(1, 1),       # Униграммы (можно расширить до (1,2))
    max_features=1000         # Ограничение размерности
)

# Обучение векторизатора ТОЛЬКО на обучающих текстах
X_train_vec = vectorizer.fit_transform(X_train)

# Применение обученного векторизатора к тестовым текстам (без переобучения!)
X_test_vec = vectorizer.transform(X_test)

print("\n" + "="*60)
print("РЕЗУЛЬТАТЫ ВЕКТОРИЗАЦИИ")
print("="*60)
print(f"Размер обучающей выборки (векторизованной): {X_train_vec.shape}")
print(f"Размер тестовой выборки (векторизованной):   {X_test_vec.shape}")
print(f"Количество признаков (уникальных терминов):  {len(vectorizer.get_feature_names_out())}")

# При желании можно посмотреть ключевые термины
print("\nПервые 10 терминов из словаря векторизатора:")
print(vectorizer.get_feature_names_out()[:10].tolist())

# =============================================================================
# 4. Обучение модели логистической регрессии
# =============================================================================

model = LogisticRegression(
    random_state=42,
    max_iter=1000
)

print("\n" + "="*60)
print("ОБУЧЕНИЕ МОДЕЛИ")
print("="*60)
model.fit(X_train_vec, y_train)
print("Модель обучена на векторизованных текстах.")

# =============================================================================
# 5. Оценка качества модели
# =============================================================================

y_pred = model.predict(X_test_vec)

print("\n" + "="*60)
print("ОТЧЁТ ПО КАЧЕСТВУ НА ТЕСТОВОЙ ВЫБОРКЕ")
print("="*60)
print(classification_report(
    y_test, y_pred,
    target_names=['Негативный (0)', 'Позитивный (1)'],
    digits=3
))

# Дополнительно: вероятности предсказаний (опционально)
if hasattr(model, "predict_proba"):
    proba = model.predict_proba(X_test_vec)
    print("\nПример вероятностей предсказаний:")
    for i, (text, true, pred, probs) in enumerate(zip(X_test, y_test, y_pred, proba)):
        print(f"[{i+1}] Текст: '{text}'")
        print(f"      Истинный класс: {true}, Предсказанный: {pred}")
        print(f"      Вероятности: Негативный={probs[0]:.3f}, Позитивный={probs[1]:.3f}")
        print()


### 4.2. Правильная кросс-валидация

При использовании кросс-валидации (K-Fold, Stratified K-Fold) каждый шаг предобработки и инженерии признаков должен выполняться **внутри каждого фолда**. Это гарантирует, что валидационный фолд на каждой итерации остаётся «невиданным» для этапов, таких как векторизация или нормализация.

Для этого удобно использовать **пайплайны (Pipelines)** из `scikit-learn`, которые инкапсулируют предобработку и модель в единый объект.


In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
import pandas as pd

# Пример данных (имитация текстовых данных)
data = {
    'text': [
        "Это хороший фильм", "Мне не понравился этот фильм", "Отличная игра актеров",
        "Скучный сюжет и плохая режиссура", "Рекомендую к просмотру",
        "Ужасный фильм, пустая трата времени", "Интересный поворот событий",
        "Не стоит смотреть", "Захватывающий сюжет", "Очень плохое кино"
    ],
    'sentiment': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]  # 1 — позитивный, 0 — негативный
}
df = pd.DataFrame(data)

X = df['text']
y = df['sentiment']

# Создание пайплайна: векторизация -> модель
# TfidfVectorizer.fit_transform() будет вызываться только на обучающем фолде
# TfidfVectorizer.transform() — на валидационном
text_clf = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LogisticRegression(random_state=42))
])

# Использование StratifiedKFold для сохранения пропорций классов
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Вычисление F1-меры для каждого фолда
scores = cross_val_score(text_clf, X, y, cv=cv, scoring='f1_weighted')

print(f"F1-меры для каждого фолда: {scores}")
print(f"Средняя F1-мера по кросс-валидации: {scores.mean():.3f}")
print(f"Стандартное отклонение F1-меры: {scores.std():.3f}")


> ✅ **Ключевой момент**: В пайплайне `TfidfVectorizer` обучается **только на обучающем фолде**, а не на всём датасете. Это предотвращает утечку.



### 4.3. Разделение временных рядов (Time-Series Splitting)

Для данных с временной зависимостью (например, новости, посты в соцсетях) необходимо использовать стратегии разделения, сохраняющие хронологический порядок. Обучающая выборка всегда должна предшествовать тестовой.



In [None]:
from sklearn.model_selection import TimeSeriesSplit
import pandas as pd

# Пример временных данных
data = {
    'date': pd.to_datetime(['2023-01-01', '2023-01-05', '2023-01-10', '2023-01-15', '2023-01-20',
                            '2023-01-25', '2023-01-30', '2023-02-05', '2023-02-10', '2023-02-15']),
    'text': ['Текст1', 'Текст2', 'Текст3', 'Текст4', 'Текст5',
             'Текст6', 'Текст7', 'Текст8', 'Текст9', 'Текст10'],
    'sentiment': [0, 1, 0, 1, 0, 1, 0, 1, 0, 1]
}
df_ts = pd.DataFrame(data).sort_values(by='date').reset_index(drop=True)

X_ts = df_ts['text']
y_ts = df_ts['sentiment']

# TimeSeriesSplit гарантирует, что тестовые данные всегда идут после обучающих
tscv = TimeSeriesSplit(n_splits=3)

print("Разделение временного ряда:")
for i, (train_index, test_index) in enumerate(tscv.split(X_ts)):
    print(f"Фолд {i+1}:")
    print(f"  Обучающие индексы: {train_index}, Тестовые индексы: {test_index}")
    print(f"  Обучающие даты: {df_ts.loc[train_index, 'date'].tolist()}")
    print(f"  Тестовые даты: {df_ts.loc[test_index, 'date'].tolist()}")
    print("-" * 30)


> ⚠️ **Не используйте случайное перемешивание** для временных данных — это вызовет временную утечку.



### 4.4. Разделение по группам (Group-based Splitting)

Если данные содержат группы (пользователи, авторы, продукты), необходимо убедиться, что **все примеры одной группы** находятся либо в обучении, либо в тесте. Иначе модель может «запомнить» особенности группы, а не обобщить.



In [None]:
from sklearn.model_selection import GroupKFold, GroupShuffleSplit
import pandas as pd

# Пример с группами (пользователями)
data = {
    'user_id': ['A', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C'],
    'text': ['Текст_A1', 'Текст_A2', 'Текст_B1', 'Текст_C1', 'Текст_A3',
             'Текст_B2', 'Текст_C2', 'Текст_A4', 'Текст_B3', 'Текст_C3'],
    'sentiment': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]
}
df_groups = pd.DataFrame(data)

X_groups = df_groups['text']
y_groups = df_groups['sentiment']
groups = df_groups['user_id']  # Группы для разделения

# GroupKFold: гарантирует, что одна группа не попадёт и в train, и в test
gkf = GroupKFold(n_splits=3)

print("Разделение по группам (GroupKFold):")
for i, (train_index, test_index) in enumerate(gkf.split(X_groups, y_groups, groups)):
    print(f"Фолд {i+1}:")
    train_users = set(groups.iloc[train_index])
    test_users = set(groups.iloc[test_index])
    print(f"  Обучающие индексы: {train_index}, Тестовые индексы: {test_index}")
    print(f"  Пользователи в обучении: {train_users}")
    print(f"  Пользователи в тесте: {test_users}")
    print(f"  Общие пользователи: {train_users.intersection(test_users)}")
    print("-" * 30)

# Пример одного train/test разделения
gss = GroupShuffleSplit(n_splits=1, test_size=0.3, random_state=42)
for train_index, test_index in gss.split(X_groups, y_groups, groups):
    X_train_g = X_groups.iloc[train_index]
    X_test_g = X_groups.iloc[test_index]
    y_train_g = y_groups.iloc[train_index]
    y_test_g = y_groups.iloc[test_index]
    groups_train = groups.iloc[train_index]
    groups_test = groups.iloc[test_index]

    print("\nПример одного разделения по группам (GroupShuffleSplit):")
    print(f"Пользователи в обучении: {set(groups_train)}")
    print(f"Пользователи в тесте: {set(groups_test)}")
    print(f"Общие пользователи: {set(groups_train).intersection(set(groups_test))}")




### 4.5. Тщательная инженерия признаков

Создавайте признаки, используя **только ту информацию, которая будет доступна во время инференса**. Если признак зависит от:
- будущих данных,
- целевой переменной,
- статистик, посчитанных на всём датасете,

— это **прямая утечка**.

✅ **Решение**: Инженерия признаков должна быть частью пайплайна, где `fit` применяется только к обучающим данным.



### 4.6. Аудит и проверка пайплайна

Регулярно проводите аудит всего пайплайна — от сбора данных до оценки модели. Задавайте себе вопросы:
- Какие данные доступны на этом этапе?
- Может ли этот шаг использовать информацию, недоступную в продакшене?
- Была ли предобработка изолирована?

> 🔍 **Совет**: Представьте, что вы — модель в продакшене. Что вы можете видеть? Если на этапе обучения вы используете то, чего бы "модель-в-реальности" не знала — это утечка.



### 4.7. Использование внешних данных

При использовании предварительно обученных моделей (Word2Vec, BERT, LLM) помните: они могли быть обучены на данных, пересекающихся с вашей тестовой выборкой.

**Пример**:  
Gemini-модели, обученные на большом интернет-корпусе, могут "знать" фразы из вашего тестового набора.


## Заключение

Проблема утечки данных является одной из самых серьёзных угроз для валидности результатов в NLP. Она приводит к искусственно завышенной производительности на этапе разработки, что вводит в заблуждение и может привести к провалу модели в продакшене.

**Ключевые меры защиты**:
- Разделяйте данные **до** предобработки.
- Используйте **пайплайны** и **кросс-валидацию** правильно.
- Применяйте **TimeSeriesSplit** для временных данных.
- Используйте **GroupKFold** для групповых данных.
- Проводите **аудит** пайплайна.

Только строгая дисциплина и внимание к деталям гарантируют, что ваша модель действительно **обобщает**, а не «подглядывает».



# §6. Числовое представление текста и методы векторизации: Подробное описание

Для того чтобы алгоритмы машинного обучения могли обрабатывать текстовые данные, их необходимо преобразовать из символьного формата в числовой. Этот процесс, известный как **векторизация** или **эмбеддинг**, является фундаментальным шагом в любом пайплайне обработки естественного языка (NLP). Компьютеры оперируют числами, и эффективное числовое представление текста позволяет моделям выявлять закономерности, семантические связи и синтаксические структуры, скрытые в человеческом языке.



## 1. Необходимость векторизации и эволюция подходов

Исторически первые подходы к векторизации текста были относительно простыми и основывались на подсчёте слов. Они представляли текст как набор дискретных, независимых признаков. Однако с развитием вычислительных мощностей и появлением нейронных сетей методы векторизации значительно усложнились, став способными улавливать более тонкие семантические и синтаксические отношения между словами и предложениями.

Эволюция подходов к числовому представлению текста может быть прослежена через несколько ключевых этапов:

1. **Разреженные представления (Sparse Representations)**:  
   К ним относятся такие методы, как **One-Hot Encoding** и **Bag-of-Words (BoW)**. Эти подходы создают векторы, большинство элементов которых равны нулю, что делает их «разрежёнными». Они просты в реализации, но не способны улавливать семантические отношения между словами и страдают от проблемы высокой размерности при больших словарях.

2. **Плотные представления (Dense Representations) / Векторные представления слов (Word Embeddings)**:  
   С появлением нейронных сетей появилась возможность создавать плотные векторы меньшей размерности, где каждый элемент имеет смысловую нагрузку. Такие методы, как **Word2Vec**, **GloVe** и **FastText**, способны улавливать семантическую близость слов (например, «король» и «королева» будут иметь близкие векторы в многомерном пространстве). Эти представления значительно улучшили производительность моделей в различных задачах NLP.

3. **Контекстно-зависимые эмбеддинги (Contextual Embeddings)**:  
   Современные модели, такие как **ELMo**, **BERT**, **GPT** и их многочисленные преемники, произвели революцию в NLP, генерируя эмбеддинги слов, которые зависят от контекста их употребления. Например, слово «банк» будет иметь разные числовые представления в зависимости от того, используется ли оно в значении «финансовое учреждение» или «берег реки». Это позволяет моделям лучше справляться с полисемией и другими языковыми нюансами.

В этом разделе мы сосредоточимся на базовых и классических методах векторизации, которые являются основой для понимания более сложных подходов.



#2. Методы векторизации текстовых данных

## 2.1. One-Hot Encoding

### 2.1.1. Введение

Одной из ключевых задач в обработке естественного языка (Natural Language Processing, NLP) является **представление текста в числовом виде**, пригодном для обработки алгоритмами машинного обучения. Поскольку компьютеры не могут напрямую работать с текстовыми символами, необходимо преобразовать слова, предложения или документы в **векторные представления**.

Наиболее простым и интуитивно понятным способом векторизации категориальных данных, включая слова, является метод **One-Hot Encoding** (кодирование с одним активным состоянием). Данный метод широко используется на начальных этапах изучения NLP как базовая модель преобразования слов в векторы.

В этом разделе мы подробно рассмотрим принцип работы One-Hot Encoding, его математическую основу, практическую реализацию и **критические ограничения**, особенно с точки зрения **объёма занимаемой памяти**. В завершение будет приведён **реалистичный пример масштабного текстового корпуса**, демонстрирующий, почему One-Hot Encoding оказывается **неприемлемым для крупных задач**.



### 2.1.2. Определение и принцип работы

Пусть задан текстовый корпус — совокупность документов (предложений, абзацев, книг), из которого извлекаются все уникальные слова. Совокупность этих слов образует **словарь (vocabulary)**. Обозначим размер словаря как:

$$V = |\text{vocabulary}|$$

Каждому слову $w_i$ в словаре присваивается уникальный индекс $i \in \{0, 1, 2, \dots, V-1\}$.

**One-Hot Encoding** слова $w_i$ — это бинарный вектор $\mathbf{v}_i \in \mathbb{R}^V$, определяемый следующим образом:

$$
v_{i,j} =
\begin{cases}
1, & \text{если } j = i, \\
0, & \text{если } j \ne i.
\end{cases}
$$

Таким образом, вектор имеет длину $V$, и только одна компонента (на позиции $i$) равна 1, а все остальные — 0.



### 2.1.3. Пример построения One-Hot векторов

Рассмотрим небольшой словарь из четырёх слов:

| Слово    | Индекс |
|---------|--------|
| кошка   | 0      |
| собака  | 1      |
| бежит   | 2      |
| спит    | 3      |

Тогда One-Hot векторы будут:

- "кошка" → $[1, 0, 0, 0]$
- "собака" → $[0, 1, 0, 0]$
- "бежит" → $[0, 0, 1, 0]$
- "спит" → $[0, 0, 0, 1]$

Как видно, каждый вектор однозначно идентифицирует слово, но не содержит никакой информации о его значении, контексте или связи с другими словами.



### 2.1.4. Свойства One-Hot представления

| Свойство | Характеристика |
|--------|----------------|
| **Размерность** | Равна размеру словаря $V$ |
| **Разреженность** | Вектор содержит $V-1$ нулей и один 1 → очень высокая разрежённость |
| **Ортогональность** | Все векторы попарно ортогональны: $\mathbf{v}_i \cdot \mathbf{v}_j = 0$ при $i \ne j$ |
| **Семантика** | Не учитывается. Все слова равноудалены в векторном пространстве |
| **OOV-слова** | Слова, не вошедшие в словарь, не могут быть закодированы (исключение — специальные стратегии, например, нулевой вектор) |


### 2.1.5. Практическая реализация

Ниже приведён пример реализации One-Hot Encoding на языке Python с использованием библиотек `scikit-learn` и `numpy`.


In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Пример текстов
sentences = [
    "Я люблю кошек",
    "Собаки тоже хорошие"
]

# Токенизация и создание словаря
words = []
for sentence in sentences:
    cleaned = sentence.lower().replace('.', '').replace(',', '').split()
    words.extend(cleaned)

unique_words = sorted(set(words))
print(f"Словарь: {unique_words}")

# Обучение One-Hot Encoder
encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)
encoder.fit(np.array(unique_words).reshape(-1, 1))

# Функция кодирования слова
def encode_word(word):
    return encoder.transform([[word.lower()]])

# Примеры
print("Вектор 'кошек':", encode_word("кошек"))
print("Вектор 'птицы' (OOV):", encode_word("птицы"))



> **Пояснение параметров**:
> - `handle_unknown='ignore'` — позволяет обрабатывать слова вне словаря, возвращая вектор из нулей.
> - `sparse_output=False` — возвращает плотный массив (удобно для демонстрации).
> - При работе с большими словарями рекомендуется использовать `sparse=True` для экономии памяти.



### 2.1.6. Проблема масштабируемости: анализ объёма памяти

Одним из главных недостатков One-Hot Encoding является **экстремально высокое потребление памяти** при увеличении размера словаря. Рассмотрим это на примере крупного текстового корпуса.

#### 📘 Пример: корпус из 1000 книг

Представим, что у нас есть коллекция из **1000 книг**, каждая объёмом:

- **250 страниц**
- **35 строк на странице**
- **~10 слов в строке**

##### Шаг 1: Общее количество слов

$$1000 \times 250 \times 35 \times 10 = 87\,500\,000$$

Итого: **87.5 миллионов слов**.

##### Шаг 2: Оценка размера словаря

Пусть средний словарь одной книги — около 20 000 уникальных слов. Учитывая пересечение лексики между книгами, общее количество уникальных слов во всём корпусе оценим как:

$$V = 100\,000$$

> Это реалистичная оценка для разнообразного корпуса (художественная и научная литература).

##### Шаг 3: Память на один One-Hot вектор

Каждый вектор имеет длину $V = 100\,000$. Если использовать тип `float32` (4 байта на элемент), то объём на один вектор:

$$100\,000 \times 4 = 400\,000\ \text{байт} = 400\ \text{КБ}$$

##### Шаг 4: Общий объём памяти для всего корпуса

Для кодирования **87.5 млн слов** потребуется:

$$87\,500\,000 \times 400\,000 = 35\,000\,000\,000\,000\ \text{байт} = 35\ \text{ТБ}$$

> 💥 **Итого: 35 терабайт оперативной памяти или дискового пространства.**



### 2.1.7. Анализ результатов

| Параметр | Значение |
|--------|--------|
| Количество слов | 87.5 млн |
| Размер словаря $V$ | 100 000 |
| Память на одно слово | 400 КБ |
| **Общий объём** | **35 ТБ** |

#### Выводы:
- **Один вектор** занимает **400 КБ**, хотя содержит только **одну единицу**.
- **99.999% данных** — это нули, что делает представление крайне **неэффективным**.
- Хранение полных векторов в плотном формате **непрактично даже для средних корпусов**.
- Даже при использовании **разреженных матриц**, где хранятся только индексы единиц, объём можно сократить до:
  $$87\,500\,000 \times 4\ \text{байта (на индекс)} = 350\ \text{МБ}$$
  — но это уже **не векторы отдельных слов**, а сжатое представление.



### 2.1.8. Ограничения метода

На основе проведённого анализа можно выделить следующие **фундаментальные недостатки** One-Hot Encoding:

1. **Неэффективность по памяти**  
   Объём памяти растёт пропорционально $V \times N$, где $N$ — количество слов. Уже при $V > 10^4$ метод становится неприменимым.

2. **Отсутствие семантической информации**  
   Все слова находятся на одинаковом "расстоянии". Например, косинусное расстояние между любыми двумя разными векторами:
   $$\cos(\mathbf{v}_i, \mathbf{v}_j) = 0 \quad \text{при} \quad i \ne j$$
   Это означает, что модель не может отличить близкие по смыслу слова (например, "кошка" и "собака") от совершенно разных ("кошка" и "бежит").

3. **Невозможность обобщения**  
   Метод не учитывает морфологию, синонимы или контекст.

4. **Проблема OOV (Out-of-Vocabulary)**  
   Любое новое слово, не вошедшее в обучающий словарь, не может быть корректно закодировано.



### 2.1.9. Когда можно использовать One-Hot?

Несмотря на ограничения, One-Hot Encoding имеет право на существование в следующих случаях:

- **Малые словари**: например, в задачах классификации с ограниченным числом категорий (например, 10–100 классов).
- **Обучающие цели**: как вводный метод для понимания векторизации.
- **Входной слой нейросетей**: в современных архитектурах One-Hot векторы часто используются неявно — через **embedding-слои**, которые сразу преобразуют индекс слова в плотный вектор.



### 2.1.10. Заключение

One-Hot Encoding — это **простой, но крайне неэффективный** способ векторизации слов. Он служит важным концептуальным шагом в изучении NLP, демонстрируя, как текст можно преобразовать в числовой формат. Однако его применение в реальных задачах с большими объёмами текста **практически исключено** из-за огромных требований к памяти и отсутствия семантической структуры.

Приведённый пример с 1000 книгами показывает, что даже при скромных предположениях объём данных может достигать **десятков терабайт**, что делает метод **непригодным для масштабных приложений**.

В следующих главах мы рассмотрим более эффективные методы векторизации, такие как **Word2Vec**, **GloVe** и **контекстные эмбеддинги**, которые решают эти проблемы за счёт компактности и способности улавливать смысл слов.




# 2.2. Bag-of-Words (мешок слов)

## 2.2.1. Определение и принцип работы

**Bag-of-Words (BoW)** — это классическая модель представления текстовых данных, при которой документ описывается как **неупорядоченный набор (мультимножество) слов**, с учётом их частоты, но **без учёта грамматики и порядка**.

Каждый документ преобразуется в числовой вектор, размерность которого равна размеру словаря $V$, где $V$ — общее количество уникальных слов во всём корпусе. Элемент вектора на позиции $j$ содержит количество вхождений слова $w_j$ в данный документ.

Формально, пусть:
- $\mathcal{D} = \{d_1, d_2, \dots, d_N\}$ — коллекция из $N$ документов,
- $\mathcal{V} = \{w_1, w_2, \dots, w_V\}$ — словарь корпуса,
- $f_{ij}$ — частота слова $w_j$ в документе $d_i$.

Тогда векторное представление документа $d_i$ в модели BoW имеет вид:

$$
\mathbf{v}_i = [f_{i1}, f_{i2}, \dots, f_{iV}]
$$

Такой подход позволяет преобразовать текст в структурированный числовой формат, пригодный для использования в алгоритмах машинного обучения.



## 2.2.2. Пример построения BoW-векторов

Рассмотрим следующие документы:

- Документ 1: *"Кошка бежит"*
- Документ 2: *"Собака спит"*

Построим словарь (лексикографически):

$$
\text{vocabulary} = \{\text{кошка}: 0, \text{собака}: 1, \text{бежит}: 2, \text{спит}: 3\}
$$

Тогда BoW-векторы будут:

- Вектор для Документа 1: $[1, 0, 1, 0]$
- Вектор для Документа 2: $[0, 1, 0, 1]$

> Обратите внимание: в отличие от One-Hot Encoding, где каждый вектор содержит только одну единицу, BoW позволяет **множественные ненулевые значения**, отражающие **реальную частоту слов**.



## 2.2.3. Алгоритм построения BoW

1. **Токенизация**  
   Каждый документ разбивается на отдельные слова (токены), обычно с приведением к нижнему регистру и удалением знаков препинания.

2. **Построение словаря**  
   Из всех токенов корпуса формируется упорядоченный список уникальных слов. Каждому слову присваивается фиксированный индекс.

3. **Векторизация**  
   Для каждого документа строится вектор длины $V$, в котором на позиции $j$ записывается количество вхождений слова $w_j$ в документ.



## 2.2.4. Практическая реализация на Python



In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Пример документов
documents = [
    "Кот спит на диване",
    "Собака бежит по улице",
    "Кот и собака играют"
]

# Создаём векторизатор BoW
vectorizer = CountVectorizer()

# Обучаем и преобразуем документы
X_bow = vectorizer.fit_transform(documents)

# Получаем словарь
feature_names = vectorizer.get_feature_names_out()
print(f"Словарь (feature names): {feature_names}")

# Выводим BoW-векторы
print("\nBoW векторы для документов:")
print(X_bow.toarray())

# Пример для нового документа
new_doc = ["Собака спит на коврике"]
new_doc_bow = vectorizer.transform(new_doc)
print(f"\nBoW вектор для нового документа '{new_doc[0]}':")
print(new_doc_bow.toarray())


> **Пояснение**:
> - `CountVectorizer` автоматически обрабатывает текст: токенизирует, приводит к нижнему регистру, строит словарь.
> - Результат `X_bow` — разреженная матрица, что позволяет эффективно хранить большие корпусы.
> - Новые документы векторизуются с использованием **того же словаря**, что и при обучении.



## 2.2.5. Преимущества BoW перед One-Hot Encoding

Несмотря на схожую структуру (оба метода используют векторы длины $V$), **Bag-of-Words значительно превосходит One-Hot Encoding** по нескольким ключевым параметрам.

### 1. **Учёт частоты слов**

- **One-Hot**: каждое слово представлено вектором с одной единицей, независимо от того, сколько раз оно встречается.
- **BoW**: если слово встречается дважды, его счётчик будет равен 2 — это **дополнительная семантическая информация**.

> Например, в документе *"кошка кошка кошка"* слово "кошка" явно играет важную роль. One-Hot не различит его от документа с одним вхождением, а BoW — да.



### 2. **Эффективное представление целых документов**

- **One-Hot**: кодирует **одно слово**.
- **BoW**: кодирует **целый документ** как сумму вкладов всех слов.

> Это делает BoW **готовым к использованию в задачах классификации, кластеризации и поиска**, в то время как One-Hot требует дополнительных шагов (например, суммирования векторов слов).



### 3. **Более информативные векторы**

Рассмотрим два документа:
- $d_1$: *"кошка бежит"*
- $d_2$: *"кошка бежит бежит"*

| Метод | Вектор $d_1$ | Вектор $d_2$ |
|------|--------------|--------------|
| One-Hot (на слово) | $[1,0,1,0]$ | $[1,0,1,0] + [1,0,1,0] = [2,0,2,0]$ |
| BoW (на документ) | $[1,0,1,0]$ | $[1,0,2,0]$ |

> В BoW видно, что слово *"бежит"* употреблено дважды — это отражено напрямую.  
> В One-Hot при суммировании теряется связь между счётчиком и конкретным словом (векторы просто складываются).



### 4. **Лучшее поведение в задачах машинного обучения**

- BoW векторы содержат **количественную информацию**, что позволяет алгоритмам (например, Naive Bayes, SVM) лучше различать документы.
- One-Hot векторы для документов (при суммировании) становятся **небинарными**, но при этом остаются **разрежёнными и несбалансированными**.



### 5. **Поддержка разреженных матриц**

Оба метода могут использовать разреженное хранение, но BoW **по умолчанию** работает с матрицами документов, что делает его **естественнее масштабируемым**.

Например, для корпуса из $N$ документов и словаря размера $V$:
- BoW: матрица $N \times V$ (разреженная),
- One-Hot: $N \times L \times V$, где $L$ — средняя длина документа (если хранить все слова отдельно).

> То есть BoW **в $L$ раз компактнее** при хранении коллекции документов.



## 2.2.6. Ограничения модели BoW

Несмотря на преимущества, BoW имеет свои недостатки:

| Ограничение | Пояснение |
|-----------|----------|
| **Игнорирование порядка слов** | Не различает *"собака кусает человека"* и *"человек кусает собаку"* |
| **Отсутствие семантики** | Не учитывает синонимы, морфологию, контекст |
| **Рост размерности** | При увеличении корпуса $V$ растёт, что увеличивает требования к памяти |
| **Чувствительность к шуму** | Частотные, но малозначимые слова (предлоги, союзы) могут доминировать |


## 2.2.7. Заключение

Модель **Bag-of-Words** является **существенным улучшением по сравнению с One-Hot Encoding** в контексте векторизации текстов. В отличие от One-Hot, который кодирует отдельные слова и игнорирует их частоту, BoW:
- позволяет представлять **целые документы**,
- учитывает **частоту слов**,
- формирует **информативные и интерпретируемые векторы**,
- эффективно масштабируется за счёт разреженных матриц.

Хотя BoW по-прежнему **не учитывает порядок слов и семантику**, он служит важным шагом на пути к более сложным моделям. Его простота, эффективность и хорошая производительность в задачах классификации делают BoW **одним из базовых инструментов в NLP**.

> В следующих главах мы рассмотрим методы, преодолевающие ограничения BoW, включая **TF-IDF**, **плотные эмбеддинги** и **контекстные модели**.




# 2.3. TF-IDF (Term Frequency – Inverse Document Frequency)

## Определение и назначение

**TF-IDF** (от англ. *Term Frequency – Inverse Document Frequency*) — это статистическая мера, используемая для оценки **важности слова** в документе относительно всей коллекции документов (корпуса). Метод является **улучшением модели Bag-of-Words (BoW)**, поскольку учитывает не только частоту слова в конкретном документе, но и его **редкость в корпусе в целом**.

Основная идея TF-IDF заключается в следующем:
- Слова, которые часто встречаются в одном документе, но редко — в других, являются **информативными** и должны иметь **высокий вес**.
- Слова, часто употребляемые во многих документах (например, "и", "в", "на", "это"), считаются **малозначимыми** (стоп-словами) и получают **пониженный вес**.

Таким образом, TF-IDF позволяет **автоматически подавлять шум** и выделять **ключевые термины**, характерные для конкретного документа.

## Математическая формула

TF-IDF вычисляется как произведение двух компонент:

1. **TF** (*Term Frequency*) — частота термина в документе,
2. **IDF** (*Inverse Document Frequency*) — мера редкости термина в корпусе.

Формально, вес слова $t$ в документе $d$ относительно корпуса $\mathcal{D}$ определяется как:

$$
\mathrm{TF\text{-}IDF}(t, d, \mathcal{D}) = \mathrm{TF}(t, d) \times \mathrm{IDF}(t, \mathcal{D})
$$


### 1. Term Frequency (TF)

**TF** — это мера того, насколько часто слово $t$ встречается в документе $d$. Существует несколько способов вычисления TF. Наиболее распространённые:

- **Абсолютная частота**:
  $$
  \mathrm{TF}(t, d) = \text{количество вхождений } t \text{ в } d
  $$

- **Нормализованная частота** (рекомендуется):
  $$
  \mathrm{TF}(t, d) = \frac{\text{количество вхождений } t \text{ в } d}{\text{общее число слов в } d}
  $$

Нормализация предотвращает предвзятость в пользу длинных документов, в которых слова могут встречаться чаще просто из-за объёма текста.



### 2. Inverse Document Frequency (IDF)

**IDF** — это мера того, насколько слово $t$ является **уникальным** или **редким** в корпусе $\mathcal{D}$. Чем реже слово встречается среди документов, тем выше его IDF.

Стандартная формула:

$$
\mathrm{IDF}(t, \mathcal{D}) = \log \left( \frac{N}{\mathrm{df}(t)} \right)
$$

где:
- $N$ — общее количество документов в корпусе,
- $\mathrm{df}(t)$ — число документов, содержащих слово $t$ (document frequency).

> **Примечание**:
> - Логарифм (обычно $\ln$ или $\log_{10}$) сглаживает значения и уменьшает влияние экстремально редких слов.
> - Чтобы избежать деления на ноль (если слово отсутствует в корпусе), часто используется сглаживание:
>   $$
>   \mathrm{IDF}(t, \mathcal{D}) = \log \left( \frac{N + 1}{\mathrm{df}(t) + 1} \right)
>   $$



## Аналитический пример вычисления TF-IDF

Рассмотрим корпус из трёх документов:

- $D_1$: *"Кот спит на диване"*
- $D_2$: *"Собака бежит по улице"*
- $D_3$: *"Кот и собака играют"*

Общее число документов: $N = 3$.

### Шаг 1: Вычисление Term Frequency (TF)

Словарь:  
{"кот", "спит", "на", "диване", "собака", "бежит", "по", "улице", "и", "играют"}

Используем **нормализованную частоту** (длина каждого документа — 4 слова).

| Слово | $D_1$ | $D_2$ | $D_3$ |
|------|-------|-------|-------|
| кот | $1/4 = 0.25$ | 0 | $0.25$ |
| спит | $0.25$ | 0 | 0 |
| на | $0.25$ | 0 | 0 |
| диване | $0.25$ | 0 | 0 |
| собака | 0 | $0.25$ | $0.25$ |
| бежит | 0 | $0.25$ | 0 |
| по | 0 | $0.25$ | 0 |
| улице | 0 | $0.25$ | 0 |
| и | 0 | 0 | $0.25$ |
| играют | 0 | 0 | $0.25$ |



### Шаг 2: Вычисление Inverse Document Frequency (IDF)

Используем натуральный логарифм: $\mathrm{IDF}(t) = \ln(3 / \mathrm{df}(t))$

| Слово | $\mathrm{df}(t)$ | $\mathrm{IDF}(t)$ |
|------|------------------|-------------------|
| кот | 2 | $\ln(3/2) \approx 0.405$ |
| спит | 1 | $\ln(3/1) \approx 1.098$ |
| на | 1 | $\approx 1.098$ |
| диване | 1 | $\approx 1.098$ |
| собака | 2 | $\approx 0.405$ |
| бежит | 1 | $\approx 1.098$ |
| по | 1 | $\approx 1.098$ |
| улице | 1 | $\approx 1.098$ |
| и | 1 | $\approx 1.098$ |
| играют | 1 | $\approx 1.098$ |



### Шаг 3: Вычисление TF-IDF

Перемножим значения TF и IDF.

**Документ $D_1$**:
- $\mathrm{TF\text{-}IDF}(\text{кот}, D_1) = 0.25 \times 0.405 = 0.101$
- $\mathrm{TF\text{-}IDF}(\text{спит}, D_1) = 0.25 \times 1.098 = 0.275$
- $\mathrm{TF\text{-}IDF}(\text{на}, D_1) = 0.25 \times 1.098 = 0.275$
- $\mathrm{TF\text{-}IDF}(\text{диване}, D_1) = 0.25 \times 1.098 = 0.275$

**Документ $D_2$**:
- $\mathrm{TF\text{-}IDF}(\text{собака}, D_2) = 0.25 \times 0.405 = 0.101$
- $\mathrm{TF\text{-}IDF}(\text{бежит}, D_2) = 0.25 \times 1.098 = 0.275$
- $\mathrm{TF\text{-}IDF}(\text{по}, D_2) = 0.25 \times 1.098 = 0.275$
- $\mathrm{TF\text{-}IDF}(\text{улице}, D_2) = 0.25 \times 1.098 = 0.275$

**Документ $D_3$**:
- $\mathrm{TF\text{-}IDF}(\text{кот}, D_3) = 0.25 \times 0.405 = 0.101$
- $\mathrm{TF\text{-}IDF}(\text{и}, D_3) = 0.25 \times 1.098 = 0.275$
- $\mathrm{TF\text{-}IDF}(\text{собака}, D_3) = 0.25 \times 0.405 = 0.101$
- $\mathrm{TF\text{-}IDF}(\text{играют}, D_3) = 0.25 \times 1.098 = 0.275$



## Анализ результатов

- Слова **"кот"** и **"собака"**, встречающиеся в двух документах, имеют **низкий IDF** ($\approx 0.405$) и, следовательно, **низкий TF-IDF** ($\approx 0.101$).
- Слова, встречающиеся **только в одном документе** (например, "спит", "диване", "и", "играют"), имеют **высокий IDF** ($\approx 1.098$) и **высокий TF-IDF** ($\approx 0.275$).

> Это демонстрирует, как TF-IDF **автоматически снижает вес общих слов** и **повышает вес уникальных терминов**, что делает документы более различимыми и информативными для задач классификации, поиска и кластеризации.



## Преимущества и ограничения TF-IDF

| Преимущество | Пояснение |
|-------------|----------|
| **Учёт информативности слов** | Редкие, но значимые слова получают более высокий вес |
| **Подавление стоп-слов** | Частотные, малозначимые слова (например, "на", "и") получают низкий IDF |
| **Интерпретируемость** | Высокие веса легко интерпретировать как ключевые слова документа |
| **Эффективность** | Поддерживает разреженные матрицы, что позволяет работать с большими корпусами |

| Ограничение | Пояснение |
|-----------|----------|
| **Игнорирование порядка слов** | Не различает *"собака кусает человека"* и *"человек кусает собаку"* |
| **Отсутствие семантики** | Не учитывает синонимы, морфологию, контекст |
| **Зависимость от корпуса** | IDF вычисляется на обучающем корпусе и не обновляется |
| **Разреженность векторов** | Векторы остаются разрежёнными, хотя и менее, чем в One-Hot Encoding |



## Заключение

TF-IDF является **ключевым улучшением модели BoW**, позволяя учитывать **информационную значимость слов** в контексте всего корпуса. Метод эффективно:
- снижает вес часто встречающихся, но малозначимых слов,
- повышает вес редких и информативных терминов,
- формирует более качественные векторные представления документов.

Хотя TF-IDF по-прежнему **не учитывает порядок слов и семантику**, он остаётся **широко применимым** в задачах:
- классификации текстов,
- информационного поиска,
- кластеризации документов.

В следующем разделе мы рассмотрим, как **расширение BoW и TF-IDF на N-граммы** позволяет частично учесть синтаксический контекст и улучшить качество векторизации.




# 2.2.3. Учёт униграмм и N-грамм

## Общая концепция

Модели **Bag-of-Words (BoW)** и **TF-IDF** по умолчанию основываются на **уникальных словах (униграммах)**, что приводит к полной потере информации о **порядке слов** и **синтаксических связях** между ними. Для частичного учёта контекста и улучшения качества векторного представления текста применяется расширение этих моделей с использованием **N-грамм** — непрерывных последовательностей из $N$ слов, извлекаемых из текста.

Пусть предложение состоит из $L$ слов: $w_1, w_2, \dots, w_L$. Тогда **N-грамма** порядка $N$ определяется как подпоследовательность:

$$
(w_i, w_{i+1}, \dots, w_{i+N-1}), \quad \text{где} \quad 1 \leq i \leq L - N + 1
$$

Количество N-грамм в предложении длины $L$ равно $L - N + 1$. Ниже рассмотрены наиболее употребительные типы N-грамм: **униграммы** ($N=1$), **биграммы** ($N=2$) и **триграммы** ($N=3$), с примерами реализации на основе библиотек `nltk` и `PySpark`.



### 1. Униграммы (1-граммы)

**Униграммы** — это отдельные слова, рассматриваемые как независимые признаки. Это базовый уровень представления текста, лежащий в основе классических моделей BoW и TF-IDF.

Множество униграмм:
$$
\{w_i \mid 1 \leq i \leq L\}
$$

#### Пример
Предложение: *"Я люблю NLP"*  
Длина $L = 3$  
Униграммы: `"Я"`, `"люблю"`, `"NLP"`

#### Реализация с использованием `nltk`



In [None]:
from nltk.util import ngrams
from nltk.tokenize import word_tokenize
import nltk

# Загрузка ресурсов (один раз)
nltk.download('punkt')
nltk.download('punkt_tab')

# Текст
sentence = "Я люблю NLP"
tokens = word_tokenize(sentence.lower())  # Токенизация
L = len(tokens)  # Длина предложения

# Генерация униграмм (N=1)
unigrams = list(ngrams(tokens, 1))
print(f"Униграммы (L={L}): {unigrams}")
# Вывод: [('я',), ('люблю',), ('nlp',)]



> **Примечание**: Униграммы часто используются как базовый признаковый набор. Каждое слово становится отдельным признаком в векторе.



### 2. Биграммы (2-граммы)

**Биграммы** — это последовательные пары слов. Они позволяют учитывать **связи между соседними словами**, что критически важно для различения фраз с одинаковыми словами, но разным смыслом.

Множество биграмм:
$$
\{(w_i, w_{i+1}) \mid 1 \leq i \leq L-1\}
$$

#### Пример
Предложение: *"Я люблю NLP"*  
$L = 3$  
Биграммы: `"Я люблю"`, `"люблю NLP"`

#### Семантическая значимость
Биграммы помогают различать:
- *"горячая собака"* (еда),
- *"горячий пес"* (животное).

При использовании только униграмм эти фразы будут представлены одинаково, что приводит к потере семантики.

#### Реализация с использованием `nltk`



In [None]:
from nltk.util import bigrams  # Алиас для ngrams(tokens, 2)

# Генерация биграмм
bigram_list = list(bigrams(tokens))
print(f"Биграммы (L={L}, число: {L-1}): {bigram_list}")



> **Альтернатива**: `ngrams(tokens, 2)` даёт тот же результат.



### 3. Триграммы (3-граммы)

**Триграммы** — это последовательности из трёх слов. Они захватывают **более широкий контекст**, что полезно для анализа сложных синтаксических конструкций и идиом.

Множество триграмм:
$$
\{(w_i, w_{i+1}, w_{i+2}) \mid 1 \leq i \leq L-2\}
$$

#### Пример
Предложение: *"Я люблю NLP"*  
$L = 3$  
Триграмма: `"Я люблю NLP"`

#### Семантическая значимость
Триграммы позволяют учитывать отрицания:
- *"не очень хорошо"* — триграмма `"не очень хорошо"` передаёт **отрицательную оценку**.
- Без триграмм модель может интерпретировать это как просто "хорошо".

#### Реализация с использованием `nltk`



In [None]:
# Генерация триграмм
trigrams = list(ngrams(tokens, 3))
print(f"Триграммы (L={L}, число: {L-2}): {trigrams}")



### Расширение: N-граммы в распределённых системах (PySpark)

Для обработки больших корпусов текстов в промышленных приложениях часто используется **Apache Spark**, в частности модуль `pyspark.ml.feature.NGram`.

#### Пример с `pyspark.ml.feature.NGram`



In [None]:
from pyspark.sql import SparkSession
from pyspark.ml.feature import NGram
from pyspark.ml.feature import Tokenizer

# Создание сессии Spark
spark = SparkSession.builder.appName("NGramExample").getOrCreate()

# Исходные данные
data = [(0, ["Я", "люблю", "NLP"]), (1, ["NLP", "очень", "интересна"])]
df = spark.createDataFrame(data, ["id", "words"])

# Генерация биграмм
ngram_transformer = NGram(n=2, inputCol="words", outputCol="ngrams")
ngram_df = ngram_transformer.transform(df)

# Просмотр результатов
ngram_df.select("ngrams").show(truncate=False)



> **Примечание**: `NGram` в PySpark автоматически генерирует N-граммы для каждого документа и поддерживает масштабирование на большие данные.



## Обобщение: Диапазон N-грамм

На практике редко используется только один тип N-грамм. Обычно задаётся **диапазон**, например:
$$
\text{ngram\_range} = (1, 2) \quad \text{или} \quad (1, 3)
$$

Это позволяет модели учитывать **униграммы, биграммы и триграммы** одновременно, что обеспечивает баланс между **семантической точностью** и **вычислительной эффективностью**.


## Преимущества и недостатки N-грамм

| Преимущество | Пояснение |
|-------------|----------|
| **Учёт локального контекста** | Модель видит, какие слова стоят рядом |
| **Различение фраз** | Позволяет отличать схожие по словам, но разные по смыслу конструкции |
| **Улучшение качества классификации** | Особенно полезно в задачах анализа тональности, детектирования спама и поиска |

| Недостаток | Пояснение |
|----------|----------|
| **Рост размерности словаря** | Каждая уникальная N-грамма — новый признак. Словарь растёт экспоненциально |
| **Разреженность векторов** | Многие N-граммы встречаются редко, что приводит к разрежённым векторам |
| **Ограниченный контекст** | Учитываются только локальные связи, но не глобальный смысл предложения |


## Практическая реализация на Python

Ниже приведён **подробный и прокомментированный код**, демонстрирующий, как использовать TF-IDF с разными типами N-грамм.


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Пример корпуса документов
documents = [
    "Кот спит на диване",
    "Собака бежит по улице",
    "Кот и собака играют",
    "Собака спит на коврике"
]

print("=== 1. УНИГРАММЫ (1-граммы) ===")
# Создаём векторизатор для униграмм: ngram_range=(1,1)
tfidf_unigram = TfidfVectorizer(ngram_range=(1, 1), lowercase=True)
# Обучаем и преобразуем
X_unigram = tfidf_unigram.fit_transform(documents)
# Получаем словарь и векторы
vocab_unigram = tfidf_unigram.get_feature_names_out()
print(f"Словарь униграмм: {list(vocab_unigram)}")
print("TF-IDF матрица (каждая строка — документ):")
print(X_unigram.toarray())
print()

print("=== 2. БИГРАММЫ (2-граммы) ===")
# Создаём векторизатор для биграмм: ngram_range=(2,2)
tfidf_bigram = TfidfVectorizer(ngram_range=(2, 2), lowercase=True)
X_bigram = tfidf_bigram.fit_transform(documents)
vocab_bigram = tfidf_bigram.get_feature_names_out()
print(f"Словарь биграмм: {list(vocab_bigram)}")
print("TF-IDF матрица:")
print(X_bigram.toarray())
print()

print("=== 3. УНИГРАММЫ + БИГРАММЫ (диапазон 1–2) ===")
# Создаём векторизатор, учитывающий и 1-граммы, и 2-граммы
tfidf_12 = TfidfVectorizer(ngram_range=(1, 2), lowercase=True)
X_12 = tfidf_12.fit_transform(documents)
vocab_12 = tfidf_12.get_feature_names_out()
print(f"Словарь (униграммы + биграммы): {list(vocab_12)}")
print("TF-IDF матрица:")
print(X_12.toarray())
print()

print("=== 4. ПРИМЕР: ВЕКТОРИЗАЦИЯ НОВОГО ДОКУМЕНТА ===")
# Новый документ (не в обучающем корпусе)
new_doc = ["Кот спит"]
# Преобразуем с помощью обученного векторизатора
new_vec = tfidf_12.transform(new_doc)
print(f"Новый документ: '{new_doc[0]}'")
print(f"Его TF-IDF вектор (размерность: {new_vec.shape[1]}):")
print(new_vec.toarray())
print("Ненулевые признаки:")
# Находим индексы ненулевых элементов
nonzero_idx = new_vec.nonzero()[1]
for idx in nonzero_idx:
    feature = vocab_12[idx]
    weight = new_vec[0, idx]
    print(f"  '{feature}': {weight:.4f}")


## Анализ результата

Для документа `"Кот спит"` векторизатор с `ngram_range=(1,2)` создаст признаки:
- Униграммы: `"кот"`, `"спит"`
- Биграммы: `"кот спит"`

Если биграмма `"кот спит"` встречалась в обучающем корпусе, она получит **собственный вес**, отражающий её информативность. Это позволяет модели учитывать **фразы как единые смысловые единицы**.





## Заключение

Расширение моделей BoW и TF-IDF с помощью **N-грамм** позволяет частично преодолеть их ключевой недостаток — **игнорирование порядка слов**. Использование униграмм, биграмм и триграмм обеспечивает разный уровень контекстуального охвата:

| Тип | Число N-грамм | Контекст |
|-----|----------------|----------|
| Униграммы | $L$ | Отдельные слова |
| Биграммы | $L-1$ | Пары слов |
| Триграммы | $L-2$ | Тройки слов |



Хотя это приводит к **росту размерности** и **разрежённости**, на практике использование диапазона `(1,2)` или `(1,3)` часто даёт **значительный прирост качества** при разумных вычислительных затратах.

Для научных и образовательных задач рекомендуется использовать `nltk.util.ngrams`, а для обработки больших данных — `pyspark.ml.feature.NGram`. В следующих главах мы рассмотрим **плотные векторные эмбеддинги**, которые решают проблему контекста более глубоко.



# 3. Word2Vec: Подробное описание

## Введение

**Word2Vec** — это семейство моделей машинного обучения, разработанных Томашем Миколовым и его коллегами в Google в 2013 году, предназначенных для эффективного обучения **плотных векторных представлений слов**, известных как **словные эмбеддинги (word embeddings)**. Эти эмбеддинги представляют слова в непрерывном многомерном векторном пространстве, где **семантическая близость** слов отражается через **геометрическую близость** их векторов.

Основное преимущество Word2Vec заключается в способности модели улавливать **семантические и синтаксические отношения** между словами. Например, векторы слов *"король"* и *"королева"* оказываются близки друг к другу, а арифметические операции вида:
$$
\mathrm{vec}(\text{король}) - \mathrm{vec}(\text{мужчина}) + \mathrm{vec}(\text{женщина}) \approx \mathrm{vec}(\text{королева})
$$
демонстрируют, что модель способна усваивать абстрактные лингвистические закономерности.



## Теоретическая основа: Гипотеза распределения

В основе Word2Vec лежит **гипотеза распределения (Distributional Hypothesis)**, сформулированная Дж. Р. Фирсом:  
> *"Слова, которые появляются в похожих контекстах, имеют схожие значения."*

Эта гипотеза лежит в основе всех современных методов обучения векторных представлений слов. Word2Vec реализует её, обучаясь предсказывать слова на основе их окружения (контекста), что позволяет модели неявно усваивать лексико-семантические паттерны.



## Архитектура модели

Word2Vec не является глубокой нейронной сетью в классическом понимании. Это **двухслойная нейросеть прямого распространения (shallow neural network)** с тремя основными слоями:
1. **Входной слой** — кодирует входное слово (или контекст) в виде one-hot вектора.
2. **Проекционный (скрытый) слой** — содержит $d$ нейронов, где $d$ — размерность эмбеддингов. Веса этого слоя и есть искомые векторные представления слов.
3. **Выходной слой** — вычисляет вероятности всех слов в словаре для задачи классификации.

Модель обучается решению **вспомогательной задачи (proxy task)** — предсказанию слова по контексту или наоборот. В процессе обучения веса проекционного слоя настраиваются так, чтобы максимизировать вероятность правильного предсказания. После обучения эти веса используются как **словные эмбеддинги**.



## Две основные архитектуры

Word2Vec предлагает две архитектуры, различающиеся направлением предсказания:

### 1. CBOW (Continuous Bag-of-Words)  
Предсказывает целевое (центральное) слово на основе его контекстных слов.

### 2. Skip-gram  
Предсказывает контекстные слова на основе целевого (центрального) слова.


## Математические основы модели Skip-gram

### 1. Введение в векторные представления слов (Word Embeddings)

В области обработки естественного языка (NLP) традиционные методы представления слов, такие как унитарное (one-hot) кодирование, страдают от проблемы *"проклятия размерности"* и неспособности улавливать семантические или синтаксические отношения между словами. Каждое слово представляется как независимая сущность, что не позволяет моделировать сходство между словами, например, между *"король"* и *"королева"* или *"быстрый"* и *"скорый"*.

Векторные представления слов, или **word embeddings**, решают эту проблему, отображая слова из дискретного пространства в непрерывное векторное пространство низкой размерности. В этом пространстве слова с похожим значением или контекстом располагаются близко друг к другу. Такие представления являются основой для многих современных NLP-задач, включая машинный перевод, анализ настроений и вопросно-ответные системы.

Модель **Skip-gram**, разработанная Томашем Миколовым и его коллегами в Google, является одной из наиболее популярных и эффективных архитектур для обучения векторных представлений слов. Она относится к семейству моделей **Word2Vec**.

#### 1.1. Основная идея Skip-gram

Основная идея модели Skip-gram заключается в предсказании контекстных слов, окружающих данное целевое слово. Если модель может успешно предсказывать контекст, значит, она «понимает» что-то о значении целевого слова, и это «понимание» кодируется в его векторном представлении.

Пусть у нас есть предложение: *"Кот сидит на коврике"*. Если *"сидит"* является целевым словом, то *"Кот"*, *"на"*, *"коврике"* могут быть его контекстными словами в пределах определённого окна. Модель Skip-gram пытается максимизировать вероятность наблюдения контекстных слов $w_c$ при данном целевом слове $w_t$:
$$
P(w_c \mid w_t)
$$
Это отличается от модели **CBOW** (Continuous Bag of Words), которая предсказывает целевое слово на основе его контекста.



### 2. Архитектура модели Skip-gram

Модель Skip-gram представляет собой простую двухслойную нейронную сеть (без нелинейности в скрытом слое), которая обучается на большом корпусе текста.

#### 2.1. Слои модели

1. **Входной слой (Input Layer)**: Представляет целевое слово $w_t$ в виде унитарного (one-hot) вектора. Размерность этого вектора равна размеру словаря $V$.
2. **Скрытый слой (Hidden Layer)**: Этот слой не имеет функции активации (или имеет линейную функцию активации). Количество нейронов в этом слое равно желаемой размерности векторного представления слова $N$. Выход этого слоя является векторным представлением (эмбеддингом) входного слова.
3. **Выходной слой (Output Layer)**: Имеет $V$ нейронов, по одному для каждого слова в словаре. Каждый нейрон выдает оценку (score) того, насколько вероятно, что соответствующее слово является контекстным словом для данного целевого слова. Затем к этим оценкам применяется функция **Softmax** для получения вероятностей.

#### 2.2. Весовые матрицы

В модели Skip-gram есть две основные весовые матрицы:

- **Матрица весов "вход–скрытый слой" ($W_{\text{in}}$)**: Эта матрица имеет размерность $V \times N$. Каждая строка этой матрицы представляет собой $N$-мерный вектор, который является эмбеддингом соответствующего слова, когда оно выступает в роли входного (целевого) слова. Мы будем называть эти векторы **входными эмбеддингами** и обозначать их как $\mathbf{v}_w$.

- **Матрица весов "скрытый слой–выход" ($W_{\text{out}}$)**: Эта матрица имеет размерность $N \times V$. Каждый столбец этой матрицы представляет собой $N$-мерный вектор, который является эмбеддингом соответствующего слова, когда оно выступает в роли контекстного слова. Мы будем называть эти векторы **выходными эмбеддингами** и обозначать их как $\mathbf{u}_w$.

> **Важно**: Для каждого слова $w$ в словаре существует два векторных представления: $\mathbf{v}_w$ (когда $w$ — целевое слово) и $\mathbf{u}_w$ (когда $w$ — контекстное слово). В конце обучения обычно используется $\mathbf{v}_w$ в качестве окончательного эмбеддинга слова.



### 3. Алгоритм прямого прохода (Forward Pass)

Прямой проход — это процесс вычисления выходных вероятностей модели на основе заданного входного (целевого) слова.

Пусть $w_t$ — целевое слово, представленное one-hot вектором $\mathbf{x}_t$ размерности $V$.

#### 3.1. Вычисление скрытого слоя

One-hot вектор $\mathbf{x}_t$ имеет единицу на позиции, соответствующей $w_t$, и нули в остальных позициях. При умножении на матрицу $W_{\text{in}}$ ($V \times N$) результатом является $N$-мерный вектор, соответствующий строке матрицы $W_{\text{in}}$, связанной со словом $w_t$. Этот вектор и есть входной эмбеддинг слова $w_t$, обозначаемый как $\mathbf{v}_{w_t}$:
$$
\mathbf{h} = \mathbf{x}_t^\top W_{\text{in}} = \mathbf{v}_{w_t}
$$
Здесь $\mathbf{h}$ — вектор скрытого слоя, который фактически является эмбеддингом целевого слова $w_t$.

#### 3.2. Вычисление оценок для выходного слоя

Вектор скрытого слоя $\mathbf{h}$ умножается на матрицу $W_{\text{out}}$ ($N \times V$). Результат — $V$-мерный вектор оценок $\mathbf{z}$, где каждый элемент $z_j$ представляет собой оценку для $j$-го слова в словаре:
$$
\mathbf{z} = \mathbf{h}^\top W_{\text{out}} = \mathbf{v}_{w_t}^\top W_{\text{out}}
$$
Каждый элемент $z_j$ может быть интерпретирован как скалярное произведение входного эмбеддинга целевого слова $\mathbf{v}_{w_t}$ и выходного эмбеддинга контекстного слова $\mathbf{u}_{w_j}$:
$$
z_j = \mathbf{v}_{w_t}^\top \mathbf{u}_{w_j}
$$
Высокое значение $z_j$ означает, что слова $w_t$ и $w_j$ часто встречаются вместе в контексте.

#### 3.3. Применение функции Softmax

Для преобразования оценок $\mathbf{z}$ в вероятности $P(w_j \mid w_t)$, которые суммируются к 1, используется функция **Softmax**:
$$
P(w_j \mid w_t) = \frac{\exp(z_j)}{\sum_{k=1}^{V} \exp(z_k)} = \frac{\exp(\mathbf{v}_{w_t}^\top \mathbf{u}_{w_j})}{\sum_{k=1}^{V} \exp(\mathbf{v}_{w_t}^\top \mathbf{u}_{w_k})}
$$
Это и есть предсказанная вероятность того, что слово $w_j$ является контекстным словом для $w_t$.



### 4. Функция потерь (Loss Function)

Цель обучения модели Skip-gram — максимизировать вероятность наблюдения фактических контекстных слов для каждого целевого слова. Это эквивалентно минимизации отрицательного логарифма этой вероятности.

Для каждой пары (целевое слово $w_t$, контекстное слово $w_c$) в обучающем наборе функция потерь (кросс-энтропия) определяется как:
$$
\mathcal{L}(w_t, w_c) = -\log P(w_c \mid w_t)
$$

Для всего обучающего набора, состоящего из пар $(w_t, w_c)$, извлечённых из корпуса текста, общая функция потерь, которую мы хотим минимизировать, имеет вид:
$$
\mathcal{L} = -\sum_{(w_t, w_c) \in D} \log P(w_c \mid w_t)
$$
где $D$ — множество всех пар (целевое слово, контекстное слово) из обучающего корпуса.



> **Примечание**: В реальных реализациях прямое применение Softmax вычислительно затратно из-за необходимости суммирования по всему словарю ($V$). Поэтому на практике часто используются приближённые методы, такие как **Negative Sampling** или **Hierarchical Softmax**, которые значительно ускоряют обучение.


# 5. Алгоритм обратного распространения ошибки (Backpropagation)

**Обратное распространение ошибки (Backpropagation)** — это ключевой алгоритм в обучении нейронных сетей, позволяющий эффективно вычислять градиенты функции потерь по отношению к весам модели. Эти градиенты используются для обновления весов с целью минимизации потерь с помощью методов оптимизации, таких как стохастический градиентный спуск (SGD).

Для модели **Skip-gram** мы хотим вычислить градиенты по двум весовым матрицам:
- $\frac{\partial \mathcal{L}}{\partial W_{\text{in}}}$ — по входной матрице (входные эмбеддинги $\mathbf{v}_w$),
- $\frac{\partial \mathcal{L}}{\partial W_{\text{out}}}$ — по выходной матрице (выходные эмбеддинги $\mathbf{u}_w$).

Рассмотрим процесс для одной обучающей пары $(w_t, w_c)$, где $w_t$ — целевое слово, $w_c$ — контекстное слово.



### 5.1. Градиент по выходному слою

Начнём с вычисления градиента функции потерь по отношению к вектору оценок $z_j$, полученных на выходном слое.

Функция потерь для одной пары:
$$
\mathcal{L} = -\log P(w_c \mid w_t) = -\log \left( \frac{\exp(z_c)}{\sum_{k=1}^{V} \exp(z_k)} \right)
$$
где $z_c = \mathbf{v}_{w_t}^\top \mathbf{u}_{w_c}$ — оценка для истинного контекстного слова $w_c$.

Производная потерь по оценке $z_j$ известна из свойств **Softmax + кросс-энтропия**:
$$
\frac{\partial \mathcal{L}}{\partial z_j} = P(w_j \mid w_t) - y_j
$$
где:
- $P(w_j \mid w_t)$ — предсказанная вероятность слова $w_j$,
- $y_j = \begin{cases} 1, & \text{если } j = c \\ 0, & \text{иначе} \end{cases}$ — истинная метка (one-hot вектор).

Обозначим эту разницу как **ошибку на выходе**:
$$
e_j = P(w_j \mid w_t) - y_j
$$
Вектор ошибок $\mathbf{e} = [e_1, e_2, \dots, e_V]^\top$ показывает, насколько модель ошиблась при предсказании каждого слова в словаре.

#### Обновление выходных эмбеддингов

Напомним: $z_j = \mathbf{h}^\top \mathbf{u}_{w_j} = \mathbf{v}_{w_t}^\top \mathbf{u}_{w_j}$, где $\mathbf{u}_{w_j}$ — $j$-й столбец матрицы $W_{\text{out}}$.

Тогда градиент потерь по выходному эмбеддингу слова $w_j$:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{u}_{w_j}} = \frac{\partial \mathcal{L}}{\partial z_j} \cdot \frac{\partial z_j}{\partial \mathbf{u}_{w_j}} = e_j \cdot \mathbf{h} = e_j \cdot \mathbf{v}_{w_t}
$$

Обновление весов (с шагом обучения $\eta$):
$$
\mathbf{u}_{w_j}^{\text{new}} = \mathbf{u}_{w_j}^{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{u}_{w_j}} = \mathbf{u}_{w_j}^{\text{old}} - \eta \cdot e_j \cdot \mathbf{v}_{w_t}
$$

> ⚠️ **Важно**: Это обновление применяется ко **всем** словам в словаре, что вычислительно затратно. Именно поэтому на практике используется **Negative Sampling** (см. далее).



### 5.2. Градиент по скрытому слою

Теперь вычислим градиент функции потерь по вектору скрытого слоя $\mathbf{h} = \mathbf{v}_{w_t}$, чтобы передать ошибку назад к входному слою.

По цепному правилу:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{h}} = \sum_{j=1}^{V} \frac{\partial \mathcal{L}}{\partial z_j} \cdot \frac{\partial z_j}{\partial \mathbf{h}} = \sum_{j=1}^{V} e_j \cdot \mathbf{u}_{w_j}
$$

Этот вектор:
$$
\delta_{\mathbf{h}} = \frac{\partial \mathcal{L}}{\partial \mathbf{h}} = \sum_{j=1}^{V} e_j \cdot \mathbf{u}_{w_j}
$$
представляет собой **взвешенную сумму выходных эмбеддингов**, где веса — ошибки $e_j$. Он показывает, как нужно изменить эмбеддинг целевого слова $w_t$, чтобы уменьшить потери.


### 5.3. Градиент по входному слою (обновление $W_{\text{in}}$)

Напомним: $\mathbf{h} = \mathbf{x}_t^\top W_{\text{in}}$, где $\mathbf{x}_t$ — one-hot вектор для $w_t$. Это означает, что $\mathbf{h}$ — это просто $t$-я строка матрицы $W_{\text{in}}$, т.е. $\mathbf{v}_{w_t}$.

Следовательно, градиент по $W_{\text{in}}$ затрагивает **только одну строку** — соответствующую $w_t$:
$$
\frac{\partial \mathcal{L}}{\partial W_{\text{in}}} = \mathbf{x}_t \cdot \left( \frac{\partial \mathcal{L}}{\partial \mathbf{h}} \right)^\top
$$
Поскольку $\mathbf{x}_t$ — one-hot вектор, результат — матрица, у которой только $t$-я строка ненулевая и равна $\left( \frac{\partial \mathcal{L}}{\partial \mathbf{h}} \right)^\top$.

Таким образом, обновление входного эмбеддинга:
$$
\mathbf{v}_{w_t}^{\text{new}} = \mathbf{v}_{w_t}^{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{h}} = \mathbf{v}_{w_t}^{\text{old}} - \eta \cdot \sum_{j=1}^{V} e_j \cdot \mathbf{u}_{w_j}
$$



### 5.4. Итоговый алгоритм обучения (с полным Softmax)

Для каждой пары $(w_t, w_c)$ в контекстном окне:
1. **Прямой проход**:
   - Получить $\mathbf{v}_{w_t}$ из $W_{\text{in}}$.
   - Вычислить $z_j = \mathbf{v}_{w_t}^\top \mathbf{u}_{w_j}$ для всех $j$.
   - Применить Softmax: $P(w_j \mid w_t) = \frac{\exp(z_j)}{\sum_k \exp(z_k)}$.
2. **Вычисление ошибок**:
   - $e_j = P(w_j \mid w_t) - y_j$, где $y_j = 1$ только если $j = c$.
3. **Обратное распространение**:
   - Обновить все выходные эмбеддинги:  
     $\mathbf{u}_{w_j} \leftarrow \mathbf{u}_{w_j} - \eta \cdot e_j \cdot \mathbf{v}_{w_t}$.
   - Вычислить $\delta_{\mathbf{h}} = \sum_j e_j \cdot \mathbf{u}_{w_j}$.
   - Обновить входной эмбеддинг:  
     $\mathbf{v}_{w_t} \leftarrow \mathbf{v}_{w_t} - \eta \cdot \delta_{\mathbf{h}}$.

> ❌ **Проблема**: Шаг 3 требует обновления $V$ векторов (по размеру словаря), что крайне неэффективно при $V \sim 10^5{-}10^6$.



# 6. Оптимизация: Negative Sampling (Отрицательное сэмплирование)

Для ускорения обучения вместо полного Softmax используется **Negative Sampling (NS)** — приближённый метод, заменяющий многоклассовую задачу на серию бинарных классификаций.

## 6.1. Принцип работы

Для каждой **положительной пары** $(w_t, w_c)$, которая реально встречается в тексте, модель учится:
- **Подтверждать** эту пару («это хороший контекст»),
- **Опровергать** $k$ случайно выбранных **отрицательных пар** $(w_t, w_{\text{neg},i})$, где $w_{\text{neg},i}$ — слова, **не** входящие в контекст $w_t$.

Цель: научить модель отличать "настоящие" контексты от "случайных".



## 6.2. Функция потерь с Negative Sampling

Функция потерь строится на основе **логистической регрессии** (сигмоиды):
$$
\mathcal{L}_{\text{NS}} = -\log \sigma(\mathbf{v}_{w_t}^\top \mathbf{u}_{w_c}) - \sum_{i=1}^{k} \log \sigma(-\mathbf{v}_{w_t}^\top \mathbf{u}_{w_{\text{neg},i}})
$$
где:
- $\sigma(x) = \frac{1}{1 + \exp(-x)}$ — сигмоида,
- $k$ — количество отрицательных примеров (обычно 5–20).

- Первый член максимизирует вероятность **наличия** связи $w_t$–$w_c$,
- Второй член максимизирует вероятность **отсутствия** связи $w_t$–$w_{\text{neg},i}$.



## 6.3. Обратное распространение с Negative Sampling

Градиенты теперь вычисляются только для **малого числа векторов** — $w_t$, $w_c$ и $k$ отрицательных слов.

#### Для положительного примера $(w_t, w_c)$:

Пусть $s = \mathbf{v}_{w_t}^\top \mathbf{u}_{w_c}$. Тогда:
$$
\frac{\partial \mathcal{L}_{\text{NS}}}{\partial \mathbf{v}_{w_t}} = (\sigma(s) - 1) \cdot \mathbf{u}_{w_c}, \quad
\frac{\partial \mathcal{L}_{\text{NS}}}{\partial \mathbf{u}_{w_c}} = (\sigma(s) - 1) \cdot \mathbf{v}_{w_t}
$$

#### Для каждого отрицательного примера $(w_t, w_{\text{neg},i})$:

Пусть $s_i = \mathbf{v}_{w_t}^\top \mathbf{u}_{w_{\text{neg},i}}$. Тогда:
$$
\frac{\partial \mathcal{L}_{\text{NS}}}{\partial \mathbf{v}_{w_t}} \mathrel{+}= \sigma(s_i) \cdot \mathbf{u}_{w_{\text{neg},i}}, \quad
\frac{\partial \mathcal{L}_{\text{NS}}}{\partial \mathbf{u}_{w_{\text{neg},i}}} = \sigma(s_i) \cdot \mathbf{v}_{w_t}
$$

> 🔁 **Обновляются только**:
> - $\mathbf{v}_{w_t}$ (входной эмбеддинг целевого слова),
> - $\mathbf{u}_{w_c}$ (выходной эмбеддинг положительного слова),
> - $\mathbf{u}_{w_{\text{neg},i}}$ (выходные эмбеддинги $k$ отрицательных слов).

✅ **Преимущества**:
- Вычислительная сложность снизилась с $O(V)$ до $O(k)$.
- Обучение становится на порядки быстрее.
- Сохраняется качество эмбеддингов.


# 7. Заключение

Модель **Skip-gram** является мощным и эффективным инструментом для обучения векторных представлений слов. Её математическая основа — комбинация простой архитектуры, гипотезы распределения и градиентного обучения — позволяет модели улавливать как семантические, так и синтаксические закономерности.

Ключевые компоненты:
- **Прямой проход** формирует вероятности контекстных слов.
- **Обратное распространение** позволяет эффективно обновлять веса.
- **Negative Sampling** делает обучение масштабируемым, заменяя дорогой Softmax на быстрые бинарные классификации.

Понимание этих механизмов критически важно не только для использования Word2Vec, но и для освоения более сложных моделей NLP, таких как **GloVe**, **FastText**, и современных трансформеров, где идеи векторных представлений и контекстного обучения развиваются дальше.




# 8. Аналитический пример: Пошаговое вычисление Skip-gram

В этом разделе мы проведём **пошаговое вычисление** прямого и обратного прохода модели **Skip-gram** на конкретном примере. Все вычисления будут выполнены вручную, чтобы продемонстрировать, как модель обучается на одной обучающей паре.



## 1. Исходные данные и инициализация

**Предложение для обучения**:  
> "кот сидит на коврике"

**Словарь** (размер $V = 4$):  
$$
\text{слово} \mapsto \text{индекс:} \quad
\begin{cases}
\text{кот} &\mapsto 0 \\
\text{сидит} &\mapsto 1 \\
\text{на} &\mapsto 2 \\
\text{коврике} &\mapsto 3
\end{cases}
$$

**Размерность эмбеддингов** $N = 2$ — каждое слово представляется 2-мерным вектором.

**One-hot векторы**:
$$
\mathbf{x}_{\text{кот}} = [1, 0, 0, 0]^\top, \quad
\mathbf{x}_{\text{сидит}} = [0, 1, 0, 0]^\top, \\
\mathbf{x}_{\text{на}} = [0, 0, 1, 0]^\top, \quad
\mathbf{x}_{\text{коврике}} = [0, 0, 0, 1]^\top
$$

**Скорость обучения**: $\eta = 0.01$



### Инициализация весовых матриц

Матрицы инициализируются случайными малыми значениями.

#### Матрица $W_{\text{in}}$ (входные эмбеддинги $\mathbf{v}_w$)

Размерность: $V \times N = 4 \times 2$  
Каждая строка — это входной эмбеддинг слова:

$$
W_{\text{in}} =
\begin{bmatrix}
\mathbf{v}_{\text{кот}} \\
\mathbf{v}_{\text{сидит}} \\
\mathbf{v}_{\text{на}} \\
\mathbf{v}_{\text{коврике}}
\end{bmatrix}
=
\begin{bmatrix}
0.1 & 0.3 \\
0.5 & 0.7 \\
0.2 & 0.4 \\
0.6 & 0.8
\end{bmatrix}
$$

То есть:
- $\mathbf{v}_{\text{кот}} = [0.1, 0.3]$
- $\mathbf{v}_{\text{сидит}} = [0.5, 0.7]$
- $\mathbf{v}_{\text{на}} = [0.2, 0.4]$
- $\mathbf{v}_{\text{коврике}} = [0.6, 0.8]$

> ⚠️ **Ошибка в оригинале**: в тексте было указано $\mathbf{v}_{\text{сидит}} = [0.3, 0.4]$, но это не соответствует второй строке матрицы. Исправлено.

#### Матрица $W_{\text{out}}$ (выходные эмбеддинги $\mathbf{u}_w$)

Размерность: $N \times V = 2 \times 4$  
Каждый столбец — это выходной эмбеддинг слова:

$$
W_{\text{out}} =
\begin{bmatrix}
0.05 & 0.15 & 0.25 & 0.35 \\
0.10 & 0.20 & 0.30 & 0.40
\end{bmatrix}
$$

То есть:
- $\mathbf{u}_{\text{кот}} = [0.05, 0.10]^\top$
- $\mathbf{u}_{\text{сидит}} = [0.15, 0.20]^\top$
- $\mathbf{u}_{\text{на}} = [0.25, 0.30]^\top$
- $\mathbf{u}_{\text{коврике}} = [0.35, 0.40]^\top$



## 2. Выбор обучающей пары

Выберем:
- **Целевое слово** $w_t = \text{«сидит»}$ (индекс 1)
- **Контекстное слово** $w_c = \text{«кот»}$ (индекс 0)

(Предположим, что контекстное окно размером 1 слева и справа.)



## 3. Прямой проход (Forward Pass)

### 3.1. Вычисление скрытого слоя $\mathbf{h}$

Скрытый слой — это эмбеддинг целевого слова:
$$
\mathbf{h} = \mathbf{x}_{\text{сидит}}^\top W_{\text{in}} = \text{вторая строка } W_{\text{in}}
$$
$$
\mathbf{h} = \mathbf{v}_{\text{сидит}} = [0.5, 0.7]
$$



### 3.2. Вычисление оценок $z_j$ на выходном слое

$$
\mathbf{z} = \mathbf{h}^\top W_{\text{out}} = [0.5, 0.7]
\begin{bmatrix}
0.05 & 0.15 & 0.25 & 0.35 \\
0.10 & 0.20 & 0.30 & 0.40
\end{bmatrix}
$$

Вычислим скалярные произведения:
- $z_{\text{кот}} = \mathbf{v}_{\text{сидит}}^\top \mathbf{u}_{\text{кот}} = 0.5 \cdot 0.05 + 0.7 \cdot 0.10 = 0.025 + 0.070 = 0.095$
- $z_{\text{сидит}} = 0.5 \cdot 0.15 + 0.7 \cdot 0.20 = 0.075 + 0.140 = 0.215$
- $z_{\text{на}} = 0.5 \cdot 0.25 + 0.7 \cdot 0.30 = 0.125 + 0.210 = 0.335$
- $z_{\text{коврике}} = 0.5 \cdot 0.35 + 0.7 \cdot 0.40 = 0.175 + 0.280 = 0.455$

Итак:
$$
\mathbf{z} = [0.095, 0.215, 0.335, 0.455]
$$



### 3.3. Применение Softmax

$$
P(w_j \mid w_t) = \frac{\exp(z_j)}{\sum_{k=0}^{3} \exp(z_k)}
$$

Вычислим экспоненты:
- $\exp(0.095) \approx 1.0996$
- $\exp(0.215) \approx 1.2399$
- $\exp(0.335) \approx 1.3977$
- $\exp(0.455) \approx 1.5758$

Сумма:  
$$
\sum_k \exp(z_k) = 1.0996 + 1.2399 + 1.3977 + 1.5758 = 5.3130
$$

Теперь вероятности:
- $P(\text{кот} \mid \text{сидит}) = \frac{1.0996}{5.3130} \approx 0.2069$
- $P(\text{сидит} \mid \text{сидит}) = \frac{1.2399}{5.3130} \approx 0.2334$
- $P(\text{на} \mid \text{сидит}) = \frac{1.3977}{5.3130} \approx 0.2631$
- $P(\text{коврике} \mid \text{сидит}) = \frac{1.5758}{5.3130} \approx 0.2966$

Проверка: $0.2069 + 0.2334 + 0.2631 + 0.2966 = 1.0000$ ✅


## 4. Функция потерь

Истинное контекстное слово: $w_c = \text{«кот»}$ → $y = [1, 0, 0, 0]^\top$

Функция потерь (кросс-энтропия):
$$
\mathcal{L} = -\log P(\text{кот} \mid \text{сидит}) = -\log(0.2069) \approx -(-1.575) = 1.575
$$

> Цель: уменьшить $\mathcal{L}$, увеличив $P(\text{кот} \mid \text{сидит})$.



## 5. Обратное распространение ошибки (Backpropagation)

### 5.1. Вычисление ошибок $e_j$

$$
e_j = P(w_j \mid w_t) - y_j
$$

- $e_{\text{кот}} = 0.2069 - 1 = -0.7931$
- $e_{\text{сидит}} = 0.2334 - 0 = 0.2334$
- $e_{\text{на}} = 0.2631 - 0 = 0.2631$
- $e_{\text{коврике}} = 0.2966 - 0 = 0.2966$

Вектор ошибок:  
$$
\mathbf{e} = [-0.7931, 0.2334, 0.2631, 0.2966]^\top
$$



### 5.2. Обновление выходных эмбеддингов $\mathbf{u}_{w_j}$

Градиент:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{u}_{w_j}} = e_j \cdot \mathbf{h} = e_j \cdot [0.5, 0.7]
$$

Обновление:
$$
\mathbf{u}_{w_j}^{\text{new}} = \mathbf{u}_{w_j}^{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{u}_{w_j}}
$$

#### Для $\mathbf{u}_{\text{кот}}$:
- Градиент: $-0.7931 \cdot [0.5, 0.7] = [-0.39655, -0.55517]$
- Обновление:  
  $$
  \mathbf{u}_{\text{кот}}^{\text{new}} = [0.05, 0.10] - 0.01 \cdot [-0.39655, -0.55517] = [0.05, 0.10] + [0.0039655, 0.0055517]
  $$
  $$
  \mathbf{u}_{\text{кот}}^{\text{new}} \approx [0.05397, 0.10555]
  $$

#### Для $\mathbf{u}_{\text{сидит}}$:
- Градиент: $0.2334 \cdot [0.5, 0.7] = [0.1167, 0.16338]$
- Обновление:  
  $$
  \mathbf{u}_{\text{сидит}}^{\text{new}} = [0.15, 0.20] - 0.01 \cdot [0.1167, 0.16338] = [0.15, 0.20] - [0.001167, 0.0016338]
  $$
  $$
  \mathbf{u}_{\text{сидит}}^{\text{new}} \approx [0.14883, 0.19837]
  $$

(Аналогично обновляются $\mathbf{u}_{\text{на}}$ и $\mathbf{u}_{\text{коврике}}$, но мы их опустим для краткости.)



### 5.3. Вычисление градиента по скрытому слою $\frac{\partial \mathcal{L}}{\partial \mathbf{h}}$

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{h}} = \sum_{j=0}^{3} e_j \cdot \mathbf{u}_{w_j}^{\text{old}}
$$

Вычислим:
- $e_{\text{кот}} \cdot \mathbf{u}_{\text{кот}} = -0.7931 \cdot [0.05, 0.10] = [-0.039655, -0.07931]$
- $e_{\text{сидит}} \cdot \mathbf{u}_{\text{сидит}} = 0.2334 \cdot [0.15, 0.20] = [0.03501, 0.04668]$
- $e_{\text{на}} \cdot \mathbf{u}_{\text{на}} = 0.2631 \cdot [0.25, 0.30] = [0.065775, 0.07893]$
- $e_{\text{коврике}} \cdot \mathbf{u}_{\text{коврике}} = 0.2966 \cdot [0.35, 0.40] = [0.10381, 0.11864]$

Суммируем:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{h}} =
[-0.039655 + 0.03501 + 0.065775 + 0.10381,\
-0.07931 + 0.04668 + 0.07893 + 0.11864]
$$
$$
= [0.16494, 0.16494]
$$



### 5.4. Обновление входного эмбеддинга $\mathbf{v}_{w_t}$

$$
\mathbf{v}_{\text{сидит}}^{\text{new}} = \mathbf{v}_{\text{сидит}}^{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{h}}
$$
$$
= [0.5, 0.7] - 0.01 \cdot [0.16494, 0.16494] = [0.5, 0.7] - [0.0016494, 0.0016494]
$$
$$
\mathbf{v}_{\text{сидит}}^{\text{new}} \approx [0.49835, 0.69835]
$$



## 6. Итоги одной итерации

После одной итерации обучения на паре $(\text{«сидит»}, \text{«кот»})$:
- Эмбеддинг $\mathbf{v}_{\text{сидит}}$ немного уменьшился.
- Эмбеддинг $\mathbf{u}_{\text{кот}}$ изменился так, чтобы **увеличить** скалярное произведение с $\mathbf{v}_{\text{сидит}}$.
- Эмбеддинги других слов изменились, чтобы **уменьшить** их вероятность в контексте слова «сидит».

Этот процесс повторяется для всех пар в корпусе на протяжении многих эпох. Со временем модель формирует осмысленные векторные представления, где семантически близкие слова оказываются близки в векторном пространстве.


## 7. Краткое упоминание Negative Sampling

Если бы мы использовали **Negative Sampling** с $k=1$ и отрицательным примером $w_{\text{neg}} = \text{«на»}$, то:

- Функция потерь:
  $$
  \mathcal{L}_{\text{NS}} = -\log \sigma(\mathbf{v}_{\text{сидит}}^\top \mathbf{u}_{\text{кот}}) - \log \sigma(-\mathbf{v}_{\text{сидит}}^\top \mathbf{u}_{\text{на}})
  $$

- Обновлялись бы **только**:
  - $\mathbf{v}_{\text{сидит}}$,
  - $\mathbf{u}_{\text{кот}}$,
  - $\mathbf{u}_{\text{на}}$.

- Не требовалось бы вычислять Softmax по всему словарю и обновлять все 4 выходных эмбеддинга.

✅ **Преимущество**: обучение становится на порядки быстрее, особенно при большом $V$.



# Математическая архитектура Continuous Bag-of-Words (CBOW)

## Введение: Векторные представления слов в обработке естественного языка

В современной обработке естественного языка (NLP) способность компьютера «понимать» смысл слов и их взаимосвязи является фундаментальной. Традиционные методы представления слов, такие как one-hot кодирование, где каждое уникальное слово в словаре представлено вектором, состоящим из одной единицы и множества нулей, страдают от двух основных недостатков:

1. **Разреженность**: Векторы становятся чрезвычайно длинными для больших словарей, что приводит к неэффективному использованию памяти и вычислительных ресурсов.  
2. **Отсутствие семантики**: One-hot векторы не несут никакой информации о смысловых или синтаксических отношениях между словами. Например, векторы для слов «король» и «королева» будут ортогональны, что не отражает их очевидной смысловой близости.

Для преодоления этих ограничений были разработаны векторные представления слов (word embeddings) или векторные вложения слов. Это плотные, низкоразмерные векторы действительных чисел, которые кодируют семантические и синтаксические свойства слов. Основная идея заключается в том, что слова, появляющиеся в схожих контекстах, имеют схожие значения и, следовательно, должны иметь схожие векторные представления в многомерном пространстве. Например, в хорошо обученном пространстве вложений вектор для слова «король» будет находиться близко к вектору «королева», и векторная операция «король» − «мужчина» + «женщина» будет аппроксимировать вектор «королева».

Одной из наиболее влиятельных моделей для обучения таких векторных представлений является Continuous Bag-of-Words (CBOW), предложенная Томашем Миколовым и его коллегами из Google в 2013 году. CBOW относится к классу моделей Word2Vec и представляет собой эффективный алгоритм для получения высококачественных векторных вложений из больших текстовых корпусов.

## 1. Основная концепция CBOW

Центральная идея CBOW заключается в предсказании целевого слова на основе его окружающего контекста. Модель принимает набор слов, находящихся в определённом окне вокруг интересующего слова (целевого слова), и использует их для прогнозирования самого целевого слова.

Рассмотрим пример предложения: «Собака гонится за кошкой по двору».  
Если «кошкой» является нашим целевым словом, то контекстными словами могут быть «Собака», «гонится», «за», «по», «двору» (в зависимости от размера окна контекста). Модель CBOW принимает эти контекстные слова в качестве входных данных и пытается предсказать «кошкой» как выход.

Процесс обучения CBOW можно резюмировать следующим образом:  
1. Формирование пар (контекст, целевое слово): из обучающего текстового корпуса извлекаются пары, где контекст состоит из слов, окружающих целевое слово в пределах заданного окна.  
2. Прямой проход (Forward Pass): модель обрабатывает входные контекстные слова, агрегирует их представления и вычисляет вероятности для каждого слова в словаре быть целевым словом.  
3. Вычисление потерь: сравнивается предсказанное распределение вероятностей с истинным целевым словом, и вычисляется ошибка предсказания.  
4. Обратный проход (Backpropagation): ошибка распространяется обратно через сеть, и веса модели (которые и являются векторными представлениями слов) корректируются таким образом, чтобы уменьшить ошибку в будущих предсказаниях.

Повторяя этот процесс многократно на обширном текстовом корпусе, модель учится эффективно кодировать семантические и синтаксические отношения в векторных представлениях слов. Чем чаще слово встречается в определённом контексте, тем сильнее модель «запоминает» эту связь, что приводит к более точным и значимым векторным вложениям.

## 2. Архитектура нейронной сети CBOW

Архитектура CBOW представляет собой относительно простую нейронную сеть, состоящую из трёх основных слоёв:

1. **Входной слой (Input Layer)**: этот слой принимает one-hot векторы контекстных слов. Если размер окна контекста составляет $C$ слов до и $C$ слов после целевого слова, то на вход подаётся $2C$ one-hot векторов.  
2. **Проекционный (скрытый) слой (Projection/Hidden Layer)**: этот слой является ключевым для создания векторных вложений. Он усредняет one-hot векторы контекстных слов и проецирует их в низкоразмерное векторное пространство. Размерность этого пространства, обозначаемая $N$, определяет размерность получаемых векторных вложений слов. В отличие от традиционных скрытых слоёв в нейронных сетях, здесь отсутствует нелинейная функция активации.  
3. **Выходной слой (Output Layer)**: этот слой имеет размер, равный размеру словаря ($V$). Он генерирует вектор оценок (логитов) для каждого слова в словаре, которые затем преобразуются в вероятности с помощью функции Softmax, указывающие на вероятность того, что каждое слово является целевым, учитывая входной контекст.




# 3. Детальная математическая формулировка

Для полного понимания работы CBOW необходимо подробно рассмотреть математические операции, происходящие на каждом этапе.  
Пусть $V$ — размер нашего словаря (общее количество уникальных слов), а $N$ — желаемая размерность векторных вложений (например, 100, 300).

## 3.1. Входной слой: One-Hot кодирование контекстных слов

Каждое слово в словаре представлено уникальным one-hot вектором. One-hot вектор для $i$-го слова $w_i$ — это вектор-столбец размерности $V \times 1$, в котором $i$-й элемент равен 1, а все остальные элементы равны 0.

Например, если словарь содержит 4 слова: {"кот": 0, "сидит": 1, "на": 2, "коврике": 3}, то:  
- One-hot вектор для "кот" будет $\mathbf{x}_{\text{кот}} = [1, 0, 0, 0]^\top$.  
- One-hot вектор для "сидит" будет $\mathbf{x}_{\text{сидит}} = [0, 1, 0, 0]^\top$.

Для данного обучающего примера, состоящего из целевого слова $w_c$ и его контекстных слов, мы имеем $2C$ one-hot векторов контекста: $\mathbf{x}_{c-C+1}, \dots, \mathbf{x}_{c-1}, \mathbf{x}_{c+1}, \dots, \mathbf{x}_{c+C}$.

## 3.2. Прямой проход (Forward Pass): От входного к проекционному слою

На этом этапе происходит преобразование разреженных one-hot векторов в плотные векторные представления и их агрегация.

### Матрица входных весов $W$

Между входным и проекционным слоем находится матрица весов $W \in \mathbb{R}^{V \times N}$. Каждая строка этой матрицы $W_i \in \mathbb{R}^{1 \times N}$ представляет собой $N$-мерное векторное вложение $i$-го слова в словаре, когда оно выступает в роли контекстного слова. Эту матрицу можно рассматривать как «таблицу поиска», где по индексу слова мы получаем его векторное представление.

### Получение векторного представления контекстного слова ($\mathbf{v}_j$)

Для каждого из $2C$ контекстных слов, представленных one-hot вектором $\mathbf{x}_j$, его плотное векторное представление $\mathbf{v}_j$ вычисляется путём умножения транспонированного one-hot вектора на матрицу $W$:
$$
\mathbf{v}_j = \mathbf{x}_j^\top W
$$
- $\mathbf{x}_j^\top$: транспонированный one-hot вектор $j$-го контекстного слова, имеющий размерность $1 \times V$.  
- $W$: матрица входных весов, размерность $V \times N$.  
- $\mathbf{v}_j$: векторное представление $j$-го контекстного слова, размерность $1 \times N$.

**Подробное объяснение**: Поскольку $\mathbf{x}_j$ является one-hot вектором, умножение $\mathbf{x}_j^\top W$ является эффективным способом извлечения соответствующей строки из матрицы $W$. Если $\mathbf{x}_j$ соответствует $k$-му слову в словаре, то $\mathbf{v}_j$ будет $k$-й строкой матрицы $W$.

### Усреднение контекстных векторов ($\mathbf{h}$)

После получения векторных представлений для всех $2C$ контекстных слов ($\mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_{2C}$), CBOW усредняет эти векторы для формирования единого контекстного вектора $\mathbf{h}$:
$$
\mathbf{h} = \frac{1}{2C} \sum_{j=1}^{2C} \mathbf{v}_j = \frac{1}{2C} \sum_{j=1}^{2C} \mathbf{x}_j^\top W
$$
- $2C$: общее количество контекстных слов в текущем окне.  
- $\sum_{j=1}^{2C} \mathbf{v}_j$: сумма всех $2C$ векторных представлений контекстных слов.  
- $\mathbf{h}$: усреднённый контекстный вектор, размерность $1 \times N$.

**Подробное объяснение**: Вектор $\mathbf{h}$ представляет собой агрегированное, плотное представление всего контекста, окружающего целевое слово. Усреднение позволяет модели учитывать вклад каждого контекстного слова в равной степени, формируя единое, семантически насыщенное представление окружения. Этот вектор $\mathbf{h}$ является выходом проекционного слоя. Важно отметить, что в оригинальной архитектуре CBOW этот «скрытый» слой не имеет нелинейной функции активации; он выполняет только линейную проекцию и усреднение.

## 3.3. Прямой проход (Forward Pass): От проекционного к выходному слою

Теперь, имея контекстный вектор $\mathbf{h}$, модель должна предсказать целевое слово.

### Матрица выходных весов $W'$

Между проекционным и выходным слоями находится вторая матрица весов $W' \in \mathbb{R}^{N \times V}$. Каждая колонка этой матрицы $W'_k \in \mathbb{R}^{N \times 1}$ представляет собой $N$-мерное векторное вложение $k$-го слова в словаре, когда оно выступает в роли целевого слова.

### Вычисление оценок $u$ (логитов)

Контекстный вектор $\mathbf{h}$ умножается на транспонированную матрицу $W'^\top$ для получения вектора оценок $u$ для каждого слова в словаре:
$$
\mathbf{u} = W'^\top \mathbf{h}
$$
- $W'^\top$: транспонированная матрица $W'$, размерность $V \times N$.  
- $\mathbf{h}$: контекстный вектор, размерность $N \times 1$.  
- $\mathbf{u}$: вектор оценок (логитов), размерность $V \times 1$.

**Подробное объяснение**: Каждый элемент $u_k$ в векторе $\mathbf{u}$ является «оценкой» (или «логитом») того, насколько вероятно $k$-е слово в словаре является истинным целевым словом для данного контекста. Эта оценка вычисляется как скалярное произведение $k$-й строки $W'^\top$ (которая является $k$-й колонкой $W'$) и вектора $\mathbf{h}$:
$$
u_k = (W'_k)^\top \mathbf{h}
$$
где $(W'_k)^\top$ — это транспонированный вектор $k$-й колонки матрицы $W'$. Высокое значение $u_k$ указывает на то, что модель считает $k$-е слово весьма вероятным целевым словом в заданном контексте.

## 3.4. Прямой проход (Forward Pass): Выходной слой (Softmax)

Оценки $u_k$ могут принимать любые действительные значения. Для преобразования их в вероятности, которые суммируются к 1, используется функция Softmax.

### Функция Softmax

Вероятность $P(w_k \mid \text{контекст})$ того, что $k$-е слово является целевым словом, вычисляется следующим образом:
$$
P(w_k \mid \text{контекст}) = \frac{\exp(u_k)}{\sum_{j=1}^{V} \exp(u_j)}
$$
- $\exp(u_k)$: экспоненциальная функция от оценки $u_k$. Использование экспоненты гарантирует, что все значения будут положительными, а также усиливает различия между оценками, делая большие оценки значительно более доминирующими.  
- $\sum_{j=1}^{V} \exp(u_j)$: сумма экспонент всех оценок для каждого слова в словаре. Этот член является нормализующим множителем, который обеспечивает, чтобы сумма всех выходных вероятностей для всех слов в словаре была равна 1.

**Подробное объяснение**: Функция Softmax преобразует произвольные действительные числа (логиты) в дискретное распределение вероятностей. Она «сглаживает» оценки, делая их интерпретируемыми как вероятности. Слово с наибольшей оценкой $u_k$ получит наибольшую вероятность, но все остальные слова также будут иметь ненулевые вероятности, отражая степень неопределённости предсказания модели.

## 3.5. Функция потерь: Кросс-энтропия

Для обучения модели необходимо измерить, насколько «плохи» текущие предсказания. Для задач классификации, таких как предсказание целевого слова, широко используется функция потерь кросс-энтропии.

Пусть $w_o$ — истинное целевое слово (слово с индексом $o$ в словаре). Его one-hot представление $y_o$ будет иметь 1 на $o$-й позиции и 0 на всех остальных.

Функция потерь $E$ для одного обучающего примера определяется как отрицательный логарифм вероятности истинного целевого слова:
$$
E = -\log P(w_o \mid \text{контекст}) = -\log \left( \frac{\exp(u_o)}{\sum_{j=1}^{V} \exp(u_j)} \right)
$$
- $P(w_o \mid \text{контекст})$: предсказанная вероятность истинного целевого слова $w_o$ для данного контекста.  
- $\log$: натуральный логарифм.  
- $-$: отрицательный знак, поскольку мы стремимся минимизировать потери, а логарифм вероятности (которая находится в диапазоне от 0 до 1) будет отрицательным или нулевым.

**Подробное объяснение**: Функция потерь кросс-энтропии наказывает модель тем сильнее, чем ниже предсказанная вероятность истинного целевого слова. Если модель предсказывает правильное слово с вероятностью, близкой к 1, потери будут минимальны (близки к 0). Если же вероятность истинного слова близка к 0, потери будут очень большими (стремящимися к бесконечности). Цель обучения CBOW заключается в минимизации этой функции потерь, что эквивалентно максимизации логарифмической правдоподобности правильного предсказания.

# 3.6. Обратный проход (Backpropagation) и оптимизация: Градиентный спуск

Для минимизации функции потерь $E$ мы используем алгоритм градиентного спуска. Этот итеративный алгоритм обновляет веса модели ($W$ и $W'$) в направлении, противоположном градиенту функции потерь. Градиент указывает направление наибольшего увеличения функции, поэтому движение в противоположном направлении ведёт к её уменьшению.

### Общее правило обновления весов:
$$
\text{новые веса} = \text{старые веса} - \eta \cdot \nabla E
$$
- $\eta$ (скорость обучения, *learning rate*): небольшой положительный скаляр, который определяет размер шага при каждом обновлении весов. Выбор адекватной скорости обучения критичен: слишком большая $\eta$ может привести к «перепрыгиванию» через оптимальный минимум, а слишком маленькая — к чрезмерно медленной сходимости.  
- $\nabla E$: градиент функции потерь $E$ по отношению к конкретным весам. Это вектор, указывающий направление наиболее крутого подъёма функции $E$.

Вычисление градиентов для матриц $W$ и $W'$ является центральной частью обратного распространения ошибки и требует применения правила цепи (chain rule) из дифференциального исчисления.

## Градиенты для $W'$ (веса выходного слоя)

Начнём с вычисления градиента функции потерь по отношению к оценкам $u_k$:
$$
\frac{\partial E}{\partial u_k} = P(w_k \mid \text{контекст}) - y_k
$$
- $P(w_k \mid \text{контекст})$: предсказанная вероятность $k$-го слова.  
- $y_k$: истинное значение (1, если $k$-е слово является целевым; 0 в противном случае).

**Подробное объяснение**: Этот элегантный результат является прямым следствием использования функции Softmax с кросс-энтропийной потерей. Разница $(P(w_k \mid \text{контекст}) - y_k)$ представляет собой «ошибку предсказания» для $k$-го слова. Если предсказанная вероятность $P(w_k \mid \text{контекст})$ для истинного слова (где $y_k = 1$) высока, ошибка будет близка к 0. Если она низка, ошибка будет отрицательной и большой по модулю, что указывает на необходимость увеличения весов, ведущих к этому слову. Для неправильных слов (где $y_k = 0$), если $P(w_k \mid \text{контекст})$ высока, ошибка будет положительной и большой, указывая на необходимость уменьшения весов, ведущих к этому слову.

Теперь, используя правило цепи, мы можем найти градиент для $\mathbf{w}'_k$ (векторного представления $k$-го слова в $W'$, то есть $k$-й колонки $W'$):
$$
\frac{\partial E}{\partial \mathbf{w}'_k} = \frac{\partial E}{\partial u_k} \cdot \frac{\partial u_k}{\partial \mathbf{w}'_k} = (P(w_k \mid \text{контекст}) - y_k) \cdot \mathbf{h}
$$
- $\frac{\partial u_k}{\partial \mathbf{w}'_k}$: градиент $u_k$ по $\mathbf{w}'_k$. Поскольку $u_k = (\mathbf{w}'_k)^\top \mathbf{h}$, то $\frac{\partial u_k}{\partial \mathbf{w}'_k} = \mathbf{h}$.

### Обновление весов $W'$

Обновление весов для каждого векторного представления целевого слова $\mathbf{w}'_k$ происходит по формуле:
$$
\mathbf{w}'_k^{\text{новое}} = \mathbf{w}'_k^{\text{старое}} - \eta \cdot (P(w_k \mid \text{контекст}) - y_k) \cdot \mathbf{h}
$$

**Подробное объяснение**: Это обновление применяется для всех $V$ слов в словаре. Для каждого слова $w_k$ его векторное представление $\mathbf{w}'_k$ корректируется пропорционально ошибке предсказания для этого слова и контекстному вектору $\mathbf{h}$. Если ошибка положительна (модель переоценила вероятность слова), $\mathbf{w}'_k$ будет сдвигаться в направлении, противоположном $\mathbf{h}$. Если ошибка отрицательна (модель недооценила вероятность слова), $\mathbf{w}'_k$ будет сдвигаться в том же направлении, что и $\mathbf{h}$.

## Градиенты для $W$ (веса входного слоя)

Распространение ошибки на входную матрицу $W$ требует нескольких шагов, так как $W$ влияет на $\mathbf{h}$, который затем влияет на $\mathbf{u}$, который, в свою очередь, влияет на $E$.

Сначала вычисляем градиент по $\mathbf{h}$ (вектору контекста), который представляет собой сумму взвешенных ошибок от выходного слоя:
$$
\frac{\partial E}{\partial \mathbf{h}} = \sum_{k=1}^{V} \frac{\partial E}{\partial u_k} \cdot \frac{\partial u_k}{\partial \mathbf{h}} = \sum_{k=1}^{V} (P(w_k \mid \text{контекст}) - y_k) \cdot \mathbf{w}'_k
$$
- $\frac{\partial u_k}{\partial \mathbf{h}}$: градиент $u_k$ по $\mathbf{h}$. Поскольку $u_k = (\mathbf{w}'_k)^\top \mathbf{h}$, то $\frac{\partial u_k}{\partial \mathbf{h}} = \mathbf{w}'_k$.  
- $\sum_{k=1}^{V}$: суммирование по всем словам в словаре, так как $\mathbf{h}$ влияет на оценки всех слов.

Пусть $\mathbf{E}_H = \frac{\partial E}{\partial \mathbf{h}}$. Этот вектор $\mathbf{E}_H$ представляет собой агрегированную ошибку, которая распространяется обратно в проекционный слой. Он показывает, как изменение контекстного вектора $\mathbf{h}$ повлияет на общую функцию потерь.

Теперь, для каждого контекстного слова $\mathbf{x}_j$, его векторное представление $\mathbf{v}_j$ участвует в вычислении $\mathbf{h}$. Напомним, что:
$$
\mathbf{h} = \frac{1}{2C} \sum_{j=1}^{2C} \mathbf{v}_j
$$

### Градиент для $\mathbf{v}_j$ (векторного представления $j$-го контекстного слова):
$$
\frac{\partial E}{\partial \mathbf{v}_j} = \frac{\partial E}{\partial \mathbf{h}} \cdot \frac{\partial \mathbf{h}}{\partial \mathbf{v}_j} = \mathbf{E}_H \cdot \frac{1}{2C}
$$
- $\frac{\partial \mathbf{h}}{\partial \mathbf{v}_j}$: градиент $\mathbf{h}$ по $\mathbf{v}_j$. Поскольку $\mathbf{h}$ является средним значением всех $\mathbf{v}_j$, производная $\mathbf{h}$ по любому конкретному $\mathbf{v}_j$ будет $\frac{1}{2C}$.

**Подробное объяснение**: Этот шаг равномерно распределяет агрегированную ошибку $\mathbf{E}_H$ между всеми контекстными векторами $\mathbf{v}_j$, которые внесли вклад в формирование $\mathbf{h}$.

Наконец, градиент для $W$ (в частности, для строки $W_i$, соответствующей $i$-му слову в словаре, если это слово $w_i$ было одним из контекстных слов $\mathbf{x}_j$):
$$
\frac{\partial E}{\partial W_i} = \sum_{j : \mathbf{x}_j \text{ is } w_i} \frac{\partial E}{\partial \mathbf{v}_j} \cdot \frac{\partial \mathbf{v}_j}{\partial W_i} = \sum_{j : \mathbf{x}_j \text{ is } w_i} \frac{1}{2C} \mathbf{E}_H \cdot \mathbf{x}_j
$$
- $\frac{\partial \mathbf{v}_j}{\partial W_i}$: градиент $\mathbf{v}_j$ по $W_i$. Поскольку $\mathbf{v}_j = \mathbf{x}_j^\top W$, и $\mathbf{x}_j$ является one-hot вектором, то $\frac{\partial \mathbf{v}_j}{\partial W_i}$ будет ненулевым только для той строки $W_i$, которая соответствует слову $\mathbf{x}_j$. В этом случае производная эквивалентна $\mathbf{x}_j$ (вектор-столбец), что при умножении на скаляр и даёт вклад в обновление строки $W_i$.

### Обновление весов $W$

Обновление весов для каждой строки $W_i$ (т.е. векторного представления контекстного слова) происходит по формуле:
$$
W_i^{\text{новое}} = W_i^{\text{старое}} - \eta \cdot \frac{1}{2C} \mathbf{E}_H
$$

**Подробное объяснение**: Это обновление применяется только к тем строкам матрицы $W$, которые соответствуют словам, присутствующим в текущем контексте. Каждая такая строка $W_i$ корректируется пропорционально обратно распространённой ошибке $\mathbf{E}_H$, делённой на количество контекстных слов $2C$.



# 4. Заключение

Архитектура Continuous Bag-of-Words (CBOW), несмотря на свою структурную простоту, является чрезвычайно эффективным и мощным инструментом для создания семантически насыщенных векторных представлений слов. Глубокое понимание математических принципов, лежащих в её основе — от начального one-hot кодирования и усреднения контекстных векторов до применения функции Softmax для получения вероятностей и итеративного обновления весов посредством градиентного спуска — позволяет получить всестороннее представление о том, как нейронные сети способны «понимать» и кодировать значения слов из их лингвистического окружения.

Ключевые концепции, которые следует прочно усвоить:
- **Принцип предсказания**: CBOW учится предсказывать целевое слово на основе его контекстных слов.  
- **Две матрицы весов ($W$ и $W'$)**: Эти матрицы содержат обучаемые векторные представления слов. $W$ используется, когда слова выступают в роли контекста, а $W'$ — когда они являются целевыми словами. В идеале, после завершения обучения, эти матрицы будут содержать очень схожие, высококачественные векторные вложения. Для практического использования часто выбирают одну из них или усредняют обе.  
- **Усреднение контекста**: Проекционный слой CBOW выполняет простую, но эффективную операцию усреднения векторных представлений всех контекстных слов, формируя единый контекстный вектор.  
- **Функция Softmax**: необходима для преобразования произвольных числовых оценок в корректное распределение вероятностей, что позволяет интерпретировать выход модели как вероятность принадлежности к каждому слову в словаре.  
- **Градиентный спуск**: фундаментальный алгоритм оптимизации, используемый для итеративной настройки весов модели с целью минимизации функции потерь и, как следствие, повышения точности предсказаний.

Полученные с помощью CBOW векторные вложения слов являются ценным ресурсом и находят широкое применение в различных задачах NLP, включая машинный перевод, анализ настроений, вопросно-ответные системы, классификацию текста и многие другие, значительно повышая их производительность и способность к семантическому анализу.




# Аналитический пример математической архитектуры Continuous Bag-of-Words (CBOW)

Этот раздел посвящён детальному аналитическому примеру работы архитектуры CBOW, шаг за шагом демонстрируя все вычисления прямого и обратного проходов. Цель состоит в том, чтобы сделать каждую формулу и операцию максимально понятной, позволяя любому читателю полностью освоить математические основы CBOW.

## 1. Исходные данные и параметры

Для нашего примера мы определим минимальный набор данных и параметров:

- **Словарь ($V$)**: {"я": 0, "люблю": 1, "кошек": 2, "собак": 3}. Размер словаря $V = 4$.  
- **Размерность векторных вложений ($N$)**: $N = 2$. Это означает, что каждое слово будет представлено 2-мерным вектором.  
- **Размер окна контекста ($C$)**: $C = 1$. Это означает, что мы берём одно слово до и одно слово после целевого слова. Общее количество контекстных слов $2C = 2$.  
- **Обучающий пример**: Предложение "я люблю кошек собак".  
  - Целевое слово ($w_o$): "кошек" (индекс 2). Его one-hot вектор $\mathbf{y}_o = [0, 0, 1, 0]^\top$.  
  - Контекстные слова: "люблю" (индекс 1) и "собак" (индекс 3).  
- **Скорость обучения ($\eta$)**: $\eta = 0.01$.

### Инициализация матриц весов

Мы инициализируем матрицы весов $W$ и $W'$ случайными значениями. Для простоты вычислений выберем небольшие, легко отслеживаемые числа.

#### 1. Матрица входных весов $W \in \mathbb{R}^{V \times N}$

Каждая строка $W_i$ соответствует векторному представлению $i$-го слова, когда оно является контекстным.
$$
W =
\begin{bmatrix}
W_0 \\
W_1 \\
W_2 \\
W_3
\end{bmatrix}
=
\begin{bmatrix}
0.1 & 0.3 \\
0.5 & 0.7 \\
0.2 & 0.4 \\
0.6 & 0.8
\end{bmatrix}
$$
- $W_0$: вектор для "я"  
- $W_1$: вектор для "люблю"  
- $W_2$: вектор для "кошек"  
- $W_3$: вектор для "собак"


#### 2. Матрица выходных весов $W' \in \mathbb{R}^{N \times V}$

Каждый столбец $W'_k$ соответствует векторному представлению $k$-го слова, когда оно является целевым.
$$
W' =
\begin{bmatrix}
0.9 & 0.8 & 0.7 & 0.6 \\
0.5 & 0.4 & 0.3 & 0.2
\end{bmatrix}
\quad
\text{или} \quad
W' = (W'_0\ W'_1\ W'_2\ W'_3)
$$
- $W'_0$: вектор для "я"  
- $W'_1$: вектор для "люблю"  
- $W'_2$: вектор для "кошек"  
- $W'_3$: вектор для "собак"



## 2. Прямой проход (Forward Pass)

Прямой проход включает вычисление предсказаний модели на основе текущих весов.

### 2.1. Входной слой: One-Hot кодирование контекстных слов

Контекстные слова: "люблю" (индекс 1) и "собак" (индекс 3).  
Их one-hot векторы:
- $\mathbf{x}_{\text{люблю}} = [0, 1, 0, 0]^\top$  
- $\mathbf{x}_{\text{собак}} = [0, 0, 0, 1]^\top$



### 2.2. От входного к проекционному слою

#### Получение векторного представления контекстного слова ($\mathbf{v}_j$)

Для каждого контекстного слова $\mathbf{x}_j$, его плотное векторное представление $\mathbf{v}_j$ извлекается из матрицы $W$ как $\mathbf{v}_j = \mathbf{x}_j^\top W$:

- Для "люблю" (индекс 1):  
  $$
  \mathbf{v}_{\text{люблю}} = \mathbf{x}_{\text{люблю}}^\top W = [0, 1, 0, 0]
  \begin{bmatrix}
  0.1 & 0.3 \\
  0.5 & 0.7 \\
  0.2 & 0.4 \\
  0.6 & 0.8
  \end{bmatrix}
  = [0.5, 0.7]
  $$

- Для "собак" (индекс 3):  
  $$
  \mathbf{v}_{\text{собак}} = \mathbf{x}_{\text{собак}}^\top W = [0, 0, 0, 1]
  \begin{bmatrix}
  0.1 & 0.3 \\
  0.5 & 0.7 \\
  0.2 & 0.4 \\
  0.6 & 0.8
  \end{bmatrix}
  = [0.6, 0.8]
  $$

#### Усреднение контекстных векторов ($\mathbf{h}$)

$$
\mathbf{h} = \frac{1}{2C} \sum_{j=1}^{2C} \mathbf{v}_j = \frac{1}{2} (\mathbf{v}_{\text{люблю}} + \mathbf{v}_{\text{собак}})
$$
$$
\mathbf{h} = \frac{1}{2} \left( [0.5, 0.7] + [0.6, 0.8] \right) = \frac{1}{2} [1.1, 1.5] = [0.55, 0.75]
$$

Таким образом, контекстный вектор $\mathbf{h} = [0.55, 0.75]^\top$.



### 2.3. От проекционного к выходному слою

#### Вычисление оценок $u$ (логитов)

Умножаем контекстный вектор $\mathbf{h}$ на транспонированную матрицу $W'^\top$:

$$
\mathbf{u} = W'^\top \mathbf{h}, \quad
W'^\top =
\begin{bmatrix}
0.9 & 0.5 \\
0.8 & 0.4 \\
0.7 & 0.3 \\
0.6 & 0.2
\end{bmatrix},
\quad
\mathbf{h} =
\begin{bmatrix}
0.55 \\
0.75
\end{bmatrix}
$$

Вычисляем каждый элемент $u_k = (W'_k)^\top \mathbf{h}$:

- $u_0$ (для "я"): $0.9 \cdot 0.55 + 0.5 \cdot 0.75 = 0.495 + 0.375 = 0.870$  
- $u_1$ (для "люблю"): $0.8 \cdot 0.55 + 0.4 \cdot 0.75 = 0.440 + 0.300 = 0.740$  
- $u_2$ (для "кошек"): $0.7 \cdot 0.55 + 0.3 \cdot 0.75 = 0.385 + 0.225 = 0.610$  
- $u_3$ (для "собак"): $0.6 \cdot 0.55 + 0.2 \cdot 0.75 = 0.330 + 0.150 = 0.480$

Таким образом, вектор оценок:
$$
\mathbf{u} = [0.870, 0.740, 0.610, 0.480]^\top
$$



### 2.4. Выходной слой (Softmax)

Преобразуем оценки $u_k$ в вероятности $P(w_k \mid \text{контекст})$ с помощью функции Softmax:
$$
P(w_k \mid \text{контекст}) = \frac{\exp(u_k)}{\sum_{j=0}^{3} \exp(u_j)}
$$

Вычислим экспоненты:
- $\exp(0.870) \approx 2.386$  
- $\exp(0.740) \approx 2.096$  
- $\exp(0.610) \approx 1.840$  
- $\exp(0.480) \approx 1.616$

Сумма:  
$$
\sum_j \exp(u_j) = 2.386 + 2.096 + 1.840 + 1.616 = 7.938
$$

Теперь вероятности:
- $P(\text{«я»} \mid \text{контекст}) = 2.386 / 7.938 \approx 0.3006$  
- $P(\text{«люблю»} \mid \text{контекст}) = 2.096 / 7.938 \approx 0.2641$  
- $P(\text{«кошек»} \mid \text{контекст}) = 1.840 / 7.938 \approx 0.2318$  
- $P(\text{«собак»} \mid \text{контекст}) = 1.616 / 7.938 \approx 0.2036$

Вектор предсказанных вероятностей:  
$$
\mathbf{P} = [0.3006, 0.2641, 0.2318, 0.2036]^\top
$$


### 2.5. Функция потерь: Кросс-энтропия

Истинное целевое слово $w_o$ — "кошек" (индекс 2). Его one-hot вектор $\mathbf{y}_o = [0, 0, 1, 0]^\top$.  
Функция потерь:
$$
E = -\log P(w_o \mid \text{контекст}) = -\log(0.2318) \approx -(-1.462) = 1.462
$$

Текущее значение функции потерь $E \approx 1.462$. Наша цель — уменьшить это значение.



## 3. Обратный проход (Backpropagation)

Обратный проход включает вычисление градиентов функции потерь по отношению к весам и их последующее обновление.

### 3.1. Градиенты для $W'$ (веса выходного слоя)

Сначала вычислим ошибку предсказания для каждого слова:
$$
\delta_k = \frac{\partial E}{\partial u_k} = P(w_k \mid \text{контекст}) - y_k
$$

- $\delta_0$ (для "я"): $0.3006 - 0 = 0.3006$  
- $\delta_1$ (для "люблю"): $0.2641 - 0 = 0.2641$  
- $\delta_2$ (для "кошек"): $0.2318 - 1 = -0.7682$  
- $\delta_3$ (для "собак"): $0.2036 - 0 = 0.2036$

Вектор ошибок: $\boldsymbol{\delta} = [0.3006, 0.2641, -0.7682, 0.2036]^\top$

Теперь вычислим градиент для каждого столбца $W'_k$:
$$
\frac{\partial E}{\partial W'_k} = \delta_k \cdot \mathbf{h}
$$

Напомним: $\mathbf{h} = [0.55, 0.75]^\top$

- $\frac{\partial E}{\partial W'_0} = 0.3006 \cdot [0.55, 0.75] = [0.16533, 0.22545]$  
- $\frac{\partial E}{\partial W'_1} = 0.2641 \cdot [0.55, 0.75] = [0.14526, 0.19808]$  
- $\frac{\partial E}{\partial W'_2} = -0.7682 \cdot [0.55, 0.75] = [-0.42251, -0.57615]$  
- $\frac{\partial E}{\partial W'_3} = 0.2036 \cdot [0.55, 0.75] = [0.11198, 0.15270]$

#### Обновление весов $W'$

$$
W'_k^{\text{новое}} = W'_k^{\text{старое}} - \eta \cdot \frac{\partial E}{\partial W'_k}
$$

Обновим $W'_2$ (для "кошек"):
- $W'_2^{\text{старое}} = [0.7, 0.3]^\top$  
- $W'_2^{\text{новое}} = [0.7, 0.3] - 0.01 \cdot [-0.42251, -0.57615] = [0.7 + 0.0042251, 0.3 + 0.0057615] = [0.704225, 0.305762]^\top$

Аналогичные обновления применяются к $W'_0$, $W'_1$, $W'_3$.



### 3.2. Градиенты для $W$ (веса входного слоя)

#### Вычисление агрегированной ошибки $E_H = \frac{\partial E}{\partial \mathbf{h}}$

$$
\frac{\partial E}{\partial \mathbf{h}} = \sum_{k=0}^{3} \delta_k \cdot W'_k
$$

- $\delta_0 \cdot W'_0 = 0.3006 \cdot [0.9, 0.5] = [0.27054, 0.15030]$  
- $\delta_1 \cdot W'_1 = 0.2641 \cdot [0.8, 0.4] = [0.21128, 0.10564]$  
- $\delta_2 \cdot W'_2 = -0.7682 \cdot [0.7, 0.3] = [-0.53774, -0.23046]$  
- $\delta_3 \cdot W'_3 = 0.2036 \cdot [0.6, 0.2] = [0.12216, 0.04072]$

Суммируем:
- $E_{H_x} = 0.27054 + 0.21128 - 0.53774 + 0.12216 = 0.06624$  
- $E_{H_y} = 0.15030 + 0.10564 - 0.23046 + 0.04072 = 0.06620$

Таким образом, $E_H \approx [0.0662, 0.0662]^\top$

#### Градиент для контекстных векторов $\mathbf{v}_j$

$$
\frac{\partial E}{\partial \mathbf{v}_j} = \frac{\partial E}{\partial \mathbf{h}} \cdot \frac{\partial \mathbf{h}}{\partial \mathbf{v}_j} = E_H \cdot \frac{1}{2C} = E_H \cdot 0.5
$$
$$
\frac{\partial E}{\partial \mathbf{v}_j} = [0.0662, 0.0662] \cdot 0.5 = [0.0331, 0.0331]
$$

#### Обновление весов $W$

$$
W_i^{\text{новое}} = W_i^{\text{старое}} - \eta \cdot \frac{\partial E}{\partial \mathbf{v}_j}
$$

- Для $W_1$ ("люблю"):  
  $W_1^{\text{старое}} = [0.5, 0.7]^\top$  
  $W_1^{\text{новое}} = [0.5, 0.7] - 0.01 \cdot [0.0331, 0.0331] = [0.499669, 0.699669]^\top$

- Для $W_3$ ("собак"):  
  $W_3^{\text{старое}} = [0.6, 0.8]^\top$  
  $W_3^{\text{новое}} = [0.6, 0.8] - 0.01 \cdot [0.0331, 0.0331] = [0.599669, 0.799669]^\top$

Строки $W_0$ и $W_2$ не обновляются, так как "я" и "кошек" не были контекстными словами в этом примере.



## 4. Заключение

Этот аналитический пример демонстрирует полный цикл прямого и обратного проходов в архитектуре CBOW для одного обучающего примера. Мы пошагово вычислили:
- Векторные представления контекстных слов.  
- Усреднённый контекстный вектор.  
- Оценки (логиты) для всех слов в словаре.  
- Вероятности предсказания целевого слова с помощью Softmax.  
- Значение функции потерь кросс-энтропии.  
- Градиенты для обновления весов в матрицах $W'$ и $W$.  
- Примеры обновлённых весов.

Этот процесс повторяется миллионы раз на большом текстовом корпусе. С каждым шагом веса $W$ и $W'$ постепенно корректируются, чтобы модель всё точнее предсказывала целевые слова на основе их контекста. В результате этих итераций формируются качественные векторные представления слов, которые кодируют семантические и синтаксические отношения между ними.




# Оптимизации Word2Vec

Для повышения эффективности обучения Word2Vec, особенно при работе с очень большими словарями, используются две основные оптимизации:

- **Иерархический Softmax (Hierarchical Softmax)**:  
  Вместо вычисления вероятностей для всех $V$ слов в выходном слое с помощью стандартного Softmax, иерархический Softmax использует **двоичное дерево Хаффмана**, в котором листьями являются слова словаря. Вероятность слова вычисляется как произведение вероятностей переходов по пути от корня дерева к соответствующему листу. Это снижает вычислительную сложность обновления весов с $O(V)$ до $O(\log V)$, что особенно эффективно при больших $V$.

- **Отрицательное сэмплирование (Negative Sampling)**:  
  Это более популярная и вычислительно эффективная оптимизация. Вместо многоклассовой классификации (предсказание одного истинного слова среди $V$), задача преобразуется в **бинарную классификацию**.  
  Для каждой положительной пары (целевое слово, контекстное слово) модель обучается предсказывать метку 1. Одновременно выбирается $k$ случайных слов (отрицательные примеры), не входящих в контекст, и для пар (целевое слово, отрицательное слово) модель обучается предсказывать метку 0.  
  Таким образом, на каждом шаге обновляются веса только для истинного контекстного слова и $k$ отрицательных слов, а не для всего словаря. Это резко снижает вычислительную нагрузку и ускоряет обучение.



#  Преимущества и недостатки Word2Vec (общие)

## Преимущества

- **Эффективность**:  
  Word2Vec способен обучаться на очень больших текстовых корпусах, генерируя качественные эмбеддинги за разумное время.

- **Семантические и синтаксические отношения**:  
  Эмбеддинги Word2Vec улавливают не только семантическую близость слов (например, «король» и «королева» находятся близко в векторном пространстве), но и линейные аналогии:  
  $$
  \mathbf{v}_{\text{король}} - \mathbf{v}_{\text{мужчина}} + \mathbf{v}_{\text{женщина}} \approx \mathbf{v}_{\text{королева}}
  $$

- **Плотные представления**:  
  В отличие от разреженных векторов (например, one-hot или TF-IDF), плотные эмбеддинги компактны, эффективны с точки зрения памяти и хорошо работают в составе последующих моделей машинного обучения.

- **Гибкость**:  
  Модель может использоваться как для обучения с нуля, так и для тонкой настройки (fine-tuning) предварительно обученных эмбеддингов в рамках конкретной задачи.

## Недостатки

- **Статические эмбеддинги**:  
  Каждое слово имеет **один фиксированный вектор**, независимо от контекста его употребления. Это приводит к следующим проблемам:
  - **Проблема полисемии**: модель не может различать разные значения одного и того же слова. Например, слово «банк» в значениях *финансовое учреждение* и *берег реки* будет представлено одним и тем же вектором.
  - **Отсутствие контекстной чувствительности**: Word2Vec не учитывает, как слово взаимодействует с другими словами в предложении. Это ограничивает его способность понимать нюансы смысла, идиомы, отрицания и другие контекстно-зависимые явления.

- **Неспособность к обучению на новых данных без полного переобучения**:  
  Новые слова, отсутствующие в исходном словаре (OOV — *out-of-vocabulary*), не имеют векторных представлений. Чтобы добавить их, требуется либо расширение словаря, либо полное переобучение модели на обновлённом корпусе, что неэффективно.



Несмотря на эти ограничения, **Word2Vec стал краеугольным камнем в NLP** и проложил путь для развития более сложных моделей, таких как **ELMo**, **BERT** и других, которые используют **контекстно-зависимые эмбеддинги** и решают многие из указанных проблем.



# GloVe: Глобальные векторы для представления слов

## 1. Введение в векторные представления слов (Word Embeddings)

В области обработки естественного языка (NLP) слова традиционно представлялись как дискретные символы. Однако такой подход не позволяет улавливать семантические и синтаксические отношения между словами. Например, слова «король» и «королева» имеют схожие значения, но их дискретные представления не отражают этого сходства.

Векторные представления слов, или **word embeddings**, решают эту проблему, отображая слова в плотные векторы вещественных чисел в многомерном пространстве. В этом пространстве слова с похожим значением или контекстом располагаются близко друг к другу. Это позволяет моделям машинного обучения лучше понимать язык и выполнять такие задачи, как машинный перевод, анализ настроений, вопросно-ответные системы и многие другие.

Существует два основных подхода к созданию векторных представлений:

1. **Прогнозные модели (prediction-based models)**:  
   Пример — Word2Vec (Skip-gram и CBOW). Они обучаются предсказывать слово по его контексту или контекст по слову.

2. **Модели, основанные на частоте встречаемости (count-based models)**:  
   Пример — Latent Semantic Analysis (LSA). Они анализируют статистику встречаемости слов в большом корпусе текстов.

Модель **GloVe (Global Vectors for Word Representation)**, разработанная Стэнфордским университетом, представляет собой гибридный подход, который пытается объединить преимущества обоих методов. Она использует глобальную статистику со-встречаемости слов (как в count-based моделях) для обучения векторных представлений, но при этом оптимизирует функцию потерь, похожую на те, что используются в прогнозных моделях.

Основная идея GloVe заключается в том, что отношения между словами могут быть закодированы в разностях их векторных представлений. Например:
$$
\mathbf{v}_{\text{король}} - \mathbf{v}_{\text{мужчина}} \approx \mathbf{v}_{\text{королева}} - \mathbf{v}_{\text{женщина}}
$$



## 2. Математические основы модели GloVe

### 2.1. Матрица со-встречаемости (Co-occurrence Matrix)

В основе GloVe лежит **матрица со-встречаемости** $X$. Элемент $X_{ij}$ этой матрицы представляет собой количество раз, когда слово $j$ встречается в контексте слова $i$ в заданном окне. Размер окна определяет, насколько далеко друг от друга могут находиться слова, чтобы считаться «со-встречающимися».

#### Пример:
Предположим, у нас есть корпус:
- «I like deep learning.»
- «I like NLP.»
- «I love learning.»

Используем окно размером 1 (рассматриваем только непосредственных соседей).

Матрица $X$ будет выглядеть примерно так:

| Word \ Context | I   | like | deep | learning | NLP | love |
|----------------|-----|------|------|----------|-----|------|
| I              | 0   | 2    | 0    | 0        | 0   | 0    |
| like           | 1   | 0    | 1    | 0        | 0   | 0    |
| deep           | 0   | 1    | 0    | 1        | 0   | 0    |
| learning       | 0   | 0    | 1    | 0        | 1   | 1    |
| NLP            | 0   | 0    | 0    | 1        | 0   | 0    |
| love           | 0   | 0    | 0    | 1        | 0   | 0    |

> **Примечание**: Обычно матрица со-встречаемости симметрична ($X_{ij} = X_{ji}$), если контекстное окно не учитывает направление. В GloVe часто используется симметричное окно, и $X_{ij}$ суммирует со-встречаемость $i$ с $j$ и $j$ с $i$. Также часто применяется затухающая функция веса со-встречаемости в зависимости от расстояния. Например, если слова находятся на расстоянии $d$, их со-встречаемость может учитываться с весом $1/d$.



### 2.2. Функция потерь GloVe (Objective Function)

Основная идея GloVe заключается в том, чтобы найти такие векторные представления слов $\mathbf{v}_i$ и $\mathbf{v}_j$ (а также контекстные векторы $\mathbf{v}'_j$), чтобы их скалярное произведение $\mathbf{v}_i^\top \mathbf{v}_j$ хорошо аппроксимировало логарифм частоты со-встречаемости $\log(X_{ij})$.

Функция потерь GloVe определяется следующим образом:
$$
J = \sum_{i=1}^{V} \sum_{j=1}^{V} f(X_{ij}) \left( \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij}) \right)^2
$$

Где:
- $V$ — размер словаря.
- $\mathbf{v}_i$ — векторное представление слова $i$.
- $\mathbf{v}_j$ — векторное представление слова $j$ (контекстный вектор). В GloVe для каждого слова обучаются два вектора: основной вектор $\mathbf{v}_i$ и контекстный вектор $\mathbf{v}'_j$. В конце обучения обычно используется сумма этих векторов ($\mathbf{v}_i + \mathbf{v}'_i$) или только основной вектор $\mathbf{v}_i$. Для простоты обозначим контекстный вектор как $\mathbf{v}_j$.
- $b_i$ и $b_j$ — скалярные смещения (bias terms) для слов $i$ и $j$ соответственно. Они учитывают общую частоту встречаемости слов, которая не улавливается скалярным произведением.
- $\log(X_{ij})$ — логарифм частоты со-встречаемости слова $j$ в контексте слова $i$. На практике используется $\log(1 + X_{ij})$, чтобы избежать $\log(0)$ для пар, которые никогда не встречаются.
- $f(X_{ij})$ — весовая функция (weighting function). Она предназначена для:
  - Присвоения нулевого веса парам, которые никогда не встречаются ($X_{ij} = 0$), чтобы они не влияли на функцию потерь.
  - Присвоения меньшего веса очень частым парам (например, «the the»), которые могут нести меньше семантической информации.
  - Присвоения большего веса редким, но информативным парам.

Типичная весовая функция $f(x)$ имеет вид:
$$
f(x) =
\begin{cases}
(x / x_{\text{max}})^\alpha & \text{если } x < x_{\text{max}} \\
1 & \text{если } x \geq x_{\text{max}}
\end{cases}
$$

Где:
- $x$ — это $X_{ij}$,
- $x_{\text{max}}$ — пороговое значение (например, 100). Пары с частотой со-встречаемости выше $x_{\text{max}}$ получают полный вес 1,
- $\alpha$ — параметр (обычно 0.75).



### 2.3. Интуиция за функцией потерь

Почему эта функция потерь работает?

Цель GloVe — найти векторные представления, которые кодируют **отношения между словами**, проявляющиеся в **отношениях частот со-встречаемости**.

Рассмотрим отношение вероятностей того, что слово $j$ встретится в контексте слов $i$ и $k$:
$$
\frac{P(j \mid i)}{P(j \mid k)}
$$
GloVe предполагает, что это отношение может быть выражено через разность векторов:
$$
\mathbf{v}_i^\top \mathbf{v}_j - \mathbf{v}_k^\top \mathbf{v}_j \approx \log\left(\frac{X_{ij}}{X_{kj}}\right) = \log(X_{ij}) - \log(X_{kj})
$$
Это можно переписать как:
$$
\mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j \approx \log(X_{ij})
$$
Таким образом, минимизация квадратичной разницы между скалярным произведением векторов (плюс смещения) и логарифмом частоты со-встречаемости заставляет модель учиться таким образом, чтобы векторные отношения отражали статистические отношения в корпусе.


## 3. Оптимизация модели GloVe: Обучение

Обучение модели GloVe сводится к минимизации функции потерь $J$ по всем параметрам: векторам слов $\mathbf{v}_i$, контекстным векторам $\mathbf{v}_j$ и смещениям $b_i$, $b_j$. Это достигается с использованием алгоритма **стохастического градиентного спуска (Stochastic Gradient Descent, SGD)** или его вариантов (например, AdaGrad, Adam).

В SGD параметры обновляются итеративно, делая небольшие шаги в направлении, противоположном градиенту функции потерь.

### 3.1. Прямой проход (Forward Pass)

Прямой проход для GloVe относительно прост, поскольку он не включает сложной нейронной сети. Для каждой пары слов $(i, j)$ с ненулевой частотой со-встречаемости $X_{ij}$:

1. **Извлечение параметров**: Получаем текущие векторные представления $\mathbf{v}_i$ и $\mathbf{v}_j$, а также смещения $b_i$ и $b_j$.
2. **Вычисление предсказанного значения**: Вычисляем скалярное произведение $\mathbf{v}_i^\top \mathbf{v}_j$ и добавляем смещения:
$$
   \text{prediction} = \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j
$$
3. **Вычисление целевого значения**: Вычисляем логарифм частоты со-встречаемости:
$$
   \text{target} = \log(X_{ij})
$$
   (На практике используется $\log(1 + X_{ij})$.)
4. **Вычисление ошибки**: Разница между предсказанным и целевым значением:
$$
   \text{error} = \text{prediction} - \text{target} = \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij})
$$
5. **Вычисление взвешенной квадратичной ошибки для данной пары**:
$$
   L_{ij} = f(X_{ij}) \cdot (\text{error})^2 = f(X_{ij}) \left( \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij}) \right)^2
$$
   Этот $L_{ij}$ является вкладом одной пары $(i, j)$ в общую функцию потерь $J$.


# 3.2. Обратное распространение ошибки (Backpropagation) и обновление параметров

Обратное распространение ошибки в GloVe заключается в вычислении частных производных функции потерь $J$ по каждому из обучаемых параметров ($\mathbf{v}_i$, $\mathbf{v}_j$, $b_i$, $b_j$). Затем эти градиенты используются для обновления параметров.

Для простоты рассмотрим вклад одной пары $(i, j)$ в функцию потерь:
$$
L_{ij} = f(X_{ij}) \left( \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij}) \right)^2
$$

Обозначим:
$$
E_{ij} = \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij})
$$
Тогда:
$$
L_{ij} = f(X_{ij}) E_{ij}^2
$$

Мы хотим найти градиенты:
$$
\frac{\partial L_{ij}}{\partial \mathbf{v}_i},\
\frac{\partial L_{ij}}{\partial \mathbf{v}_j},\
\frac{\partial L_{ij}}{\partial b_i},\
\frac{\partial L_{ij}}{\partial b_j}
$$



### 3.2.1. Градиент по $\mathbf{v}_i$

Применяем правило цепи:
$$
\frac{\partial L_{ij}}{\partial \mathbf{v}_i} = \frac{\partial L_{ij}}{\partial E_{ij}} \cdot \frac{\partial E_{ij}}{\partial \mathbf{v}_i}
$$

Сначала найдём:
$$
\frac{\partial L_{ij}}{\partial E_{ij}} = \frac{\partial}{\partial E_{ij}} \left( f(X_{ij}) E_{ij}^2 \right) = 2 f(X_{ij}) E_{ij}
$$

Затем:
$$
\frac{\partial E_{ij}}{\partial \mathbf{v}_i} = \frac{\partial}{\partial \mathbf{v}_i} \left( \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij}) \right) = \mathbf{v}_j
$$

Таким образом, градиент по $\mathbf{v}_i$:
$$
\frac{\partial L_{ij}}{\partial \mathbf{v}_i} = 2 f(X_{ij}) E_{ij} \cdot \mathbf{v}_j
$$



### 3.2.2. Градиент по $\mathbf{v}_j$

Аналогично:
$$
\frac{\partial L_{ij}}{\partial \mathbf{v}_j} = \frac{\partial L_{ij}}{\partial E_{ij}} \cdot \frac{\partial E_{ij}}{\partial \mathbf{v}_j}
$$

Мы уже знаем:
$$
\frac{\partial L_{ij}}{\partial E_{ij}} = 2 f(X_{ij}) E_{ij}
$$

Теперь:
$$
\frac{\partial E_{ij}}{\partial \mathbf{v}_j} = \frac{\partial}{\partial \mathbf{v}_j} \left( \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij}) \right) = \mathbf{v}_i
$$

Таким образом, градиент по $\mathbf{v}_j$:
$$
\frac{\partial L_{ij}}{\partial \mathbf{v}_j} = 2 f(X_{ij}) E_{ij} \cdot \mathbf{v}_i
$$



### 3.2.3. Градиент по $b_i$

$$
\frac{\partial L_{ij}}{\partial b_i} = \frac{\partial L_{ij}}{\partial E_{ij}} \cdot \frac{\partial E_{ij}}{\partial b_i}
$$

$$
\frac{\partial E_{ij}}{\partial b_i} = \frac{\partial}{\partial b_i} \left( \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij}) \right) = 1
$$

Следовательно:
$$
\frac{\partial L_{ij}}{\partial b_i} = 2 f(X_{ij}) E_{ij}
$$



### 3.2.4. Градиент по $b_j$

Аналогично:
$$
\frac{\partial L_{ij}}{\partial b_j} = \frac{\partial L_{ij}}{\partial E_{ij}} \cdot \frac{\partial E_{ij}}{\partial b_j}
$$

$$
\frac{\partial E_{ij}}{\partial b_j} = 1
$$

Следовательно:
$$
\frac{\partial L_{ij}}{\partial b_j} = 2 f(X_{ij}) E_{ij}
$$



### 3.2.5. Обновление параметров

После вычисления градиентов для каждой пары $(i, j)$ с ненулевой частотой со-встречаемости, параметры обновляются по правилу градиентного спуска:
$$
\mathbf{v}_i^{\text{new}} = \mathbf{v}_i^{\text{old}} - \eta \cdot \frac{\partial L_{ij}}{\partial \mathbf{v}_i}
$$
$$
\mathbf{v}_j^{\text{new}} = \mathbf{v}_j^{\text{old}} - \eta \cdot \frac{\partial L_{ij}}{\partial \mathbf{v}_j}
$$
$$
b_i^{\text{new}} = b_i^{\text{old}} - \eta \cdot \frac{\partial L_{ij}}{\partial b_i}
$$
$$
b_j^{\text{new}} = b_j^{\text{old}} - \eta \cdot \frac{\partial L_{ij}}{\partial b_j}
$$

Где $\eta$ (скорость обучения, *learning rate*) — небольшой положительный скаляр, определяющий размер шага обновления.

На практике вместо обработки каждой пары $(i, j)$ по отдельности (что может быть очень медленно для больших корпусов) часто используется **мини-пакетный градиентный спуск (mini-batch gradient descent)**, где градиенты усредняются по небольшому набору пар перед обновлением параметров.



# 4. Алгоритм обучения GloVe (пошагово)

1. **Сбор корпуса текстов**:  
   Подготовьте большой текстовый корпус, на котором будет обучаться модель.

2. **Построение словаря**:  
   Извлеките все уникальные слова из корпуса и создайте словарь (vocabulary). Каждому слову присваивается уникальный индекс.

3. **Построение матрицы со-встречаемости $X$**:
   - Инициализируйте матрицу $X$ размером $V \times V$ (где $V$ — размер словаря) нулями.
   - Для каждого слова в корпусе пройдитесь по его контекстному окну (например, 5 слов влево и 5 слов вправо).
   - Для каждой пары со-встречающихся слов $(i, j)$ в окне увеличьте $X_{ij}$ на 1 (или на $1/d$, где $d$ — расстояние между словами).
   - Примените пороговое значение для редких слов, отбрасывая их или заменяя на токен `<UNK>`.

4. **Инициализация параметров**:
   - Инициализируйте векторные представления слов $\mathbf{v}_i$ и контекстные векторы $\mathbf{v}'_j$ (они могут быть разными или одинаковыми в начале) случайными малыми значениями. Размерность векторов (например, 50, 100, 300) является гиперпараметром.
   - Инициализируйте скалярные смещения $b_i$ и $b_j$ нулями или случайными малыми значениями.

5. **Итеративное обучение (эпохи)**:  
   Повторяйте следующие шаги в течение заданного количества эпох:
   - **Перемешивание данных**: Перемешайте список всех пар $(i, j)$ с ненулевой частотой со-встречаемости.
   - **Итерация по парам**: Для каждой пары $(i, j)$ из перемешанного списка:
     - **Прямой проход**:
       - Вычислите $E_{ij} = \mathbf{v}_i^\top \mathbf{v}_j + b_i + b_j - \log(X_{ij})$.
       - Вычислите весовой коэффициент $f(X_{ij})$ с использованием выбранной весовой функции.
     - **Обратное распространение ошибки**:
       - Вычислите градиенты:
$$
         \frac{\partial L_{ij}}{\partial \mathbf{v}_i} = 2 f(X_{ij}) E_{ij} \cdot \mathbf{v}_j
$$
$$
         \frac{\partial L_{ij}}{\partial \mathbf{v}_j} = 2 f(X_{ij}) E_{ij} \cdot \mathbf{v}_i
$$
$$
         \frac{\partial L_{ij}}{\partial b_i} = 2 f(X_{ij}) E_{ij}
$$
$$
         \frac{\partial L_{ij}}{\partial b_j} = 2 f(X_{ij}) E_{ij}
$$
     - **Обновление параметров**:
       - Обновите $\mathbf{v}_i$, $\mathbf{v}_j$, $b_i$, $b_j$ с использованием вычисленных градиентов и скорости обучения $\eta$.
       - (Опционально) используйте более продвинутые оптимизаторы, такие как AdaGrad, которые адаптируют скорость обучения для каждого параметра.

6. **Получение конечных векторов**:  
   После завершения обучения, для каждого слова $k$, его окончательное векторное представление может быть получено как $\mathbf{v}_k + \mathbf{v}'_k$ (где $\mathbf{v}'_k$ — контекстный вектор, соответствующий $\mathbf{v}_k$), или просто как $\mathbf{v}_k$.



# 5. Преимущества и недостатки GloVe

## Преимущества

- **Эффективность**:  
  Обучение GloVe относительно быстро по сравнению с некоторыми другими методами, особенно на больших корпусах, поскольку оно работает с агрегированной статистикой со-встречаемости, а не с отдельными контекстами.

- **Использование глобальной статистики**:  
  В отличие от Word2Vec, который фокусируется на локальных контекстах, GloVe явно использует глобальную статистику со-встречаемости, что позволяет ему лучше улавливать общие семантические отношения.

- **Хорошая производительность**:  
  GloVe часто демонстрирует конкурентоспособные результаты на различных задачах NLP, таких как аналогии, классификация и сходство слов.

- **Простота и интерпретируемость**:  
  Функция потерь GloVe относительно проста и интуитивно понятна, что облегчает её понимание и анализ.

## Недостатки

- **Зависимость от матрицы со-встречаемости**:  
  Производительность GloVe сильно зависит от качества и размера матрицы со-встречаемости, которая может быть очень большой для обширных словарей, требуя значительных вычислительных ресурсов для её построения и хранения.

- **Обработка OOV-слов**:  
  Как и многие другие методы, GloVe по умолчанию не может генерировать векторы для слов, отсутствующих в словаре (Out-Of-Vocabulary, OOV). Для этого требуются дополнительные механизмы (например, использование субсловных единиц или предварительно обученных векторов).

- **Чувствительность к гиперпараметрам**:  
  Производительность может быть чувствительна к выбору гиперпараметров, таких как размерность векторов, размер контекстного окна, $x_{\text{max}}$ и $\alpha$ в весовой функции, а также скорость обучения.



# 6. Заключение

Модель GloVe представляет собой мощный и элегантный подход к созданию векторных представлений слов. Объединяя преимущества методов, основанных на частоте встречаемости, и прогнозных моделей, GloVe эффективно кодирует семантические и синтаксические отношения между словами в плотные векторные пространства. Её математическая основа, построенная на минимизации взвешенной квадратичной ошибки между скалярным произведением векторов и логарифмом частоты со-встречаемости, позволяет создавать высококачественные эмбеддинги, которые находят широкое применение в различных задачах обработки естественного языка. Понимание прямого прохода и обратного распространения ошибки является ключом к пониманию того, как модель обучается и адаптирует свои параметры для достижения этой цели.

















# Аналитический пример модели GloVe: Пошаговые вычисления

Этот пример демонстрирует один полный шаг обучения (прямой проход, вычисление градиентов и обновление параметров) для одной пары слов в модели GloVe. Мы будем использовать очень маленький корпус и простые значения для наглядности.



## 1. Исходные данные

### 1.1. Корпус текстов

Предположим, у нас есть очень маленький корпус:
- «cat chases mouse»
- «mouse runs from cat»



### 1.2. Словарь

Из корпуса извлекаем уникальные слова и присваиваем им индексы:
- `cat`: 0  
- `chases`: 1  
- `mouse`: 2  
- `runs`: 3  
- `from`: 4  

Размер словаря $V = 5$.



### 1.3. Матрица со-встречаемости $X$

Используем контекстное окно размером 1 (только непосредственные соседи) с симметричным учётом.

- «cat chases mouse»:
  - (cat, chases): 1
  - (chases, cat): 1
  - (chases, mouse): 1
  - (mouse, chases): 1
- «mouse runs from cat»:
  - (mouse, runs): 1
  - (runs, mouse): 1
  - (runs, from): 1
  - (from, runs): 1
  - (from, cat): 1
  - (cat, from): 1

Суммируя, получаем матрицу со-встречаемости $X$:

| Word \ Context | cat (0) | chases (1) | mouse (2) | runs (3) | from (4) |
|----------------|---------|------------|-----------|----------|----------|
| cat (0)        | 0       | 1          | 0         | 0        | 1        |
| chases (1)     | 1       | 0          | 1         | 0        | 0        |
| mouse (2)      | 0       | 1          | 0         | 1        | 0        |
| runs (3)       | 0       | 0          | 1         | 0        | 1        |
| from (4)       | 1       | 0          | 0         | 1        | 0        |



### 1.4. Инициализация параметров

Предположим, размерность векторов $D = 2$.

Инициализируем векторы слов $\mathbf{v}_i$, контекстные векторы $\mathbf{v}'_j$ и смещения $b_i$, $b_j$ случайными значениями.

#### Векторы слов ($\mathbf{v}_i$):
- $\mathbf{v}_{\text{cat}} = \mathbf{v}_0 = [0.1, 0.2]$  
- $\mathbf{v}_{\text{chases}} = \mathbf{v}_1 = [0.3, 0.4]$  
- $\mathbf{v}_{\text{mouse}} = \mathbf{v}_2 = [0.5, 0.6]$  
- $\mathbf{v}_{\text{runs}} = \mathbf{v}_3 = [0.7, 0.8]$  
- $\mathbf{v}_{\text{from}} = \mathbf{v}_4 = [0.9, 1.0]$  

#### Контекстные векторы ($\mathbf{v}'_j$):
- $\mathbf{v}'_{\text{cat}} = \mathbf{v}'_0 = [0.05, 0.15]$  
- $\mathbf{v}'_{\text{chases}} = \mathbf{v}'_1 = [0.25, 0.35]$  
- $\mathbf{v}'_{\text{mouse}} = \mathbf{v}'_2 = [0.45, 0.55]$  
- $\mathbf{v}'_{\text{runs}} = \mathbf{v}'_3 = [0.65, 0.75]$  
- $\mathbf{v}'_{\text{from}} = \mathbf{v}'_4 = [0.85, 0.95]$  

> **Примечание**: В оригинальной статье GloVe векторы $\mathbf{v}_i$ и $\mathbf{v}'_j$ обучаются независимо. Здесь $\mathbf{v}'_j$ — контекстный вектор для слова $j$.

#### Смещения ($b_i$, $b_j$):
- $b_{\text{cat}} = b_0 = 0.01$  
- $b_{\text{chases}} = b_1 = 0.02$  
- $b_{\text{mouse}} = b_2 = 0.03$  
- $b_{\text{runs}} = b_3 = 0.04$  
- $b_{\text{from}} = b_4 = 0.05$  

#### Гиперпараметры:
- Скорость обучения: $\eta = 0.01$  
- Параметры весовой функции:
  - $x_{\text{max}} = 10$
  - $\alpha = 0.75$



## 2. Выбор пары для обучения

Выберем пару слов $(i, j)$ для демонстрации одного шага обучения:  
$(\text{cat}, \text{chases})$, то есть $i = 0$, $j = 1$.  
Из матрицы: $X_{01} = 1$.



## 3. Прямой проход (Forward Pass)

### 3.1. Извлечение параметров для $(i=0, j=1)$
- $\mathbf{v}_0 = [0.1, 0.2]$  
- $\mathbf{v}'_1 = [0.25, 0.35]$  
- $b_0 = 0.01$  
- $b_1 = 0.02$  
- $X_{01} = 1$



### 3.2. Вычисление предсказанного значения

$$
\text{prediction} = \mathbf{v}_0^\top \mathbf{v}'_1 + b_0 + b_1
$$

$$
\mathbf{v}_0^\top \mathbf{v}'_1 = (0.1 \cdot 0.25) + (0.2 \cdot 0.35) = 0.025 + 0.070 = 0.095
$$

$$
\text{prediction} = 0.095 + 0.01 + 0.02 = 0.125
$$



### 3.3. Вычисление целевого значения

$$
\text{target} = \log(1 + X_{01}) = \log(1 + 1) = \log(2) \approx 0.6931
$$



### 3.4. Вычисление ошибки

$$
\text{error} = \text{prediction} - \text{target} = 0.125 - 0.6931 = -0.5681
$$


### 3.5. Вычисление весового коэффициента $f(X_{01})$

Поскольку $X_{01} = 1 < x_{\text{max}} = 10$:

$$
f(X_{01}) = \left( \frac{X_{01}}{x_{\text{max}}} \right)^\alpha = \left( \frac{1}{10} \right)^{0.75} = 0.1^{0.75} \approx 0.1778
$$



### 3.6. Вычисление взвешенной квадратичной ошибки $L_{01}$

$$
L_{01} = f(X_{01}) \cdot (\text{error})^2 = 0.1778 \cdot (-0.5681)^2
$$

$$
(-0.5681)^2 = 0.32276
$$

$$
L_{01} = 0.1778 \cdot 0.32276 \approx 0.05747
$$



## 4. Обратное распространение ошибки (Backpropagation)

Общая формула для градиента по параметру $P$:

$$
\frac{\partial L_{ij}}{\partial P} = 2 f(X_{ij}) \cdot \text{error} \cdot \frac{\partial (\text{prediction})}{\partial P}
$$

Мы уже знаем:
- $f(X_{01}) \approx 0.1778$
- $\text{error} \approx -0.5681$

Общий множитель:
$$
2 \cdot f(X_{01}) \cdot \text{error} = 2 \cdot 0.1778 \cdot (-0.5681) \approx -0.2023
$$



### 4.1. Градиент по $\mathbf{v}_0$ (вектор слова «cat»)

$$
\frac{\partial L_{01}}{\partial \mathbf{v}_0} = 2 f(X_{01}) \cdot \text{error} \cdot \mathbf{v}'_1 = -0.2023 \cdot [0.25, 0.35]
$$

$$
= [-0.2023 \cdot 0.25,\ -0.2023 \cdot 0.35] = [-0.050575,\ -0.070805]
$$



### 4.2. Градиент по $\mathbf{v}'_1$ (контекстный вектор слова «chases»)

$$
\frac{\partial L_{01}}{\partial \mathbf{v}'_1} = 2 f(X_{01}) \cdot \text{error} \cdot \mathbf{v}_0 = -0.2023 \cdot [0.1, 0.2]
$$

$$
= [-0.2023 \cdot 0.1,\ -0.2023 \cdot 0.2] = [-0.02023,\ -0.04046]
$$



### 4.3. Градиент по $b_0$ (смещение слова «cat»)

$$
\frac{\partial L_{01}}{\partial b_0} = 2 f(X_{01}) \cdot \text{error} \cdot 1 = -0.2023
$$



### 4.4. Градиент по $b_1$ (смещение слова «chases»)

$$
\frac{\partial L_{01}}{\partial b_1} = 2 f(X_{01}) \cdot \text{error} \cdot 1 = -0.2023
$$



## 5. Обновление параметров

Используем скорость обучения $\eta = 0.01$.



### 5.1. Обновление $\mathbf{v}_0$

$$
\mathbf{v}_0^{\text{new}} = \mathbf{v}_0^{\text{old}} - \eta \cdot \frac{\partial L_{01}}{\partial \mathbf{v}_0}
$$

$$
= [0.1, 0.2] - 0.01 \cdot [-0.050575, -0.070805]
$$

$$
= [0.1 + 0.00050575,\ 0.2 + 0.00070805] = [0.10050575,\ 0.20070805]
$$



### 5.2. Обновление $\mathbf{v}'_1$

$$
\mathbf{v}'_1^{\text{new}} = \mathbf{v}'_1^{\text{old}} - \eta \cdot \frac{\partial L_{01}}{\partial \mathbf{v}'_1}
$$

$$
= [0.25, 0.35] - 0.01 \cdot [-0.02023, -0.04046]
$$

$$
= [0.25 + 0.0002023,\ 0.35 + 0.0004046] = [0.2502023,\ 0.3504046]
$$



### 5.3. Обновление $b_0$

$$
b_0^{\text{new}} = b_0^{\text{old}} - \eta \cdot \frac{\partial L_{01}}{\partial b_0}
$$

$$
= 0.01 - 0.01 \cdot (-0.2023) = 0.01 + 0.002023 = 0.012023
$$



### 5.4. Обновление $b_1$

$$
b_1^{\text{new}} = b_1^{\text{old}} - \eta \cdot \frac{\partial L_{01}}{\partial b_1}
$$

$$
= 0.02 - 0.01 \cdot (-0.2023) = 0.02 + 0.002023 = 0.022023
$$



## 6. Заключение по примеру

Мы выполнили один шаг обновления параметров для пары слов $(\text{cat}, \text{chases})$ в модели GloVe. В реальном обучении этот процесс повторяется для всех пар с ненулевой частотой со-встречаемости в течение многих эпох, пока функция потерь не сойдётся к минимуму. С каждым шагом векторы и смещения будут постепенно корректироваться, чтобы лучше отражать статистические отношения между словами в корпусе.

Этот пример демонстрирует, как каждый компонент функции потерь и её градиентов влияет на обновление параметров, приближая скалярное произведение векторов к логарифму частоты их со-встречаемости.




# FastText: Подробное описание  
## FastText – Математические основы и алгоритмы

### Введение в FastText

FastText — это эффективная библиотека для обучения представлений слов (word embeddings) и классификации текста, разработанная Facebook AI Research (FAIR). Она является расширением моделей Word2Vec (Skip-gram и CBOW) и отличается высокой скоростью обучения, а также способностью обрабатывать редкие слова и символы благодаря использованию **символьных n-грамм**. FastText также может использоваться для классификации текста, достигая при этом конкурентоспособных результатов.

Основная идея FastText заключается в том, что слово может быть представлено не только как единое целое, но и как сумма векторов его **символьных n-грамм**. Это позволяет модели учитывать морфологическую структуру слов и генерировать осмысленные векторы даже для слов, которые не встречались в обучающем корпусе (out-of-vocabulary, OOV words).



### Ключевые концепции

1. **Символьные n-граммы**:  
   В отличие от Word2Vec, который работает только с целыми словами, FastText разбивает каждое слово на набор символьных n-грамм. Например, для слова «apple» и $n=3$ будут сгенерированы n-граммы: `<ap`, `app`, `ppl`, `ple`, `le>`. Символы `<` и `>` добавляются для обозначения начала и конца слова, что позволяет различать префиксы и суффиксы. Вектор слова затем получается путём усреднения векторов всех его n-грамм.

2. **Представления слов и предложений**:
   - **Слова**: Вектор слова $\mathbf{v}_w$ является суммой или средним векторов его символьных n-грамм.
   - **Предложения/документы**: Вектор предложения или документа может быть получен путём усреднения векторов слов, входящих в него.

3. **Модели Word2Vec как основа**:  
   FastText использует архитектуры Skip-gram и CBOW.
   - **CBOW (Continuous Bag-of-Words)**: предсказывает текущее слово на основе окружающих его слов (контекста).
   - **Skip-gram**: предсказывает окружающие слова (контекст) на основе текущего слова.

   В FastText для классификации текста используется модифицированная архитектура CBOW, где «контекстом» является весь документ, а «целевым словом» — метка класса.



### Архитектура модели FastText

FastText для обучения представлений слов использует архитектуру Skip-gram или CBOW. Для классификации текста используется модифицированная архитектура CBOW.

#### Общая структура (для классификации):
- **Входной слой**: состоит из векторов символьных n-грамм, принадлежащих словам в документе.
- Эти векторы усредняются, чтобы получить вектор представления документа.
- **Выходной слой**: линейный классификатор, который предсказывает вероятность принадлежности документа к каждому классу.



## Математические основы

### 1. Представление слов и n-грамм

Пусть $w$ — слово. FastText представляет $w$ как набор символьных n-грамм. Например, для слова «apple» и $n=3$, набор $G_w$ будет:
$$
G_{\text{apple}} = \{\text{<ap}, \text{app}, \text{ppl}, \text{ple}, \text{le>}\}
$$

Каждой n-грамме $g \in G_w$ сопоставляется вектор $\mathbf{v}_g \in \mathbb{R}^d$, где $d$ — размерность векторного пространства.

Вектор слова $\mathbf{v}_w$ вычисляется как среднее арифметическое векторов всех его n-грамм:
$$
\mathbf{v}_w = \frac{1}{|G_w|} \sum_{g \in G_w} \mathbf{v}_g
$$

> На практике часто используется **суммирование**, а не усреднение, или применяется нормализация после суммирования.



### 2. Функция скоринга (Scoring Function)

Для задачи классификации текста FastText рассматривает документ как «мешок слов» (bag of words). Пусть $D = \{w_1, w_2, \dots, w_k\}$ — набор слов в документе.

Вектор документа $\mathbf{v}_D$ вычисляется как среднее арифметическое векторов слов, входящих в документ:
$$
\mathbf{v}_D = \frac{1}{|D|} \sum_{i=1}^{k} \mathbf{v}_{w_i}
$$

Этот вектор $\mathbf{v}_D$ подаётся на выходной слой — линейный классификатор.

Пусть $C = \{c_1, c_2, \dots, c_M\}$ — набор возможных классов, где $M$ — количество классов.  
Каждому классу $c_j$ сопоставляется вектор весов $\mathbf{u}_{c_j} \in \mathbb{R}^d$.

Счёт (score) для класса $c_j$ для документа $D$ вычисляется как скалярное произведение:
$$
s(D, c_j) = \mathbf{v}_D \cdot \mathbf{u}_{c_j}
$$

Для преобразования в вероятности используется Softmax:
$$
P(c_j \mid D) = \frac{\exp(s(D, c_j))}{\sum_{k=1}^{M} \exp(s(D, c_k))}
$$



### 3. Функция потерь (Loss Function)

Для обучения FastText использует **отрицательную логарифмическую правдоподобность** (Negative Log-Likelihood) в сочетании с **Negative Sampling** или **Hierarchical Softmax**. Negative Sampling является более распространённым и эффективным методом, особенно при большом числе классов.

#### Negative Sampling (Отрицательная выборка)

Вместо вычисления вероятностей для всех $M$ классов, задача преобразуется в серию бинарных классификаций.

Для каждого обучающего примера $(D, c_{\text{true}})$ (документ $D$ и его истинный класс $c_{\text{true}}$) выбираются $K$ «отрицательных» классов $c_{\text{neg}_1}, \dots, c_{\text{neg}_K}$, не являющихся истинным.

Цель: максимизировать вероятность истинного класса и минимизировать вероятность отрицательных.

Функция потерь для одного примера:
$$
\mathcal{L}(D, c_{\text{true}}, \{c_{\text{neg}_k}\}_{k=1}^K) = -\log(\sigma(\mathbf{v}_D \cdot \mathbf{u}_{c_{\text{true}}})) - \sum_{k=1}^{K} \log(\sigma(-\mathbf{v}_D \cdot \mathbf{u}_{c_{\text{neg}_k}}))
$$

где $\sigma(x) = \frac{1}{1 + \exp(-x)}$ — сигмоидная функция.

Минимизация этой функции эквивалентна максимизации:
$$
\log(\sigma(\mathbf{v}_D \cdot \mathbf{u}_{c_{\text{true}}})) + \sum_{k=1}^{K} \log(\sigma(-\mathbf{v}_D \cdot \mathbf{u}_{c_{\text{neg}_k}}))
$$

Это означает, что мы хотим, чтобы:
- $\mathbf{v}_D \cdot \mathbf{u}_{c_{\text{true}}}$ было **большим положительным числом**,
- $\mathbf{v}_D \cdot \mathbf{u}_{c_{\text{neg}_k}}$ было **маленьким или отрицательным**.



## Процесс обучения: Forward Pass и Backpropagation

Обучение FastText происходит с использованием **стохастического градиентного спуска (SGD)** или его вариантов (например, Adam, Adagrad).

### 1. Прямой проход (Forward Pass)

Для обучающего примера $(D, c_{\text{true}})$:

1. **Извлечение n-грамм**:  
   Для каждого слова $w_i$ в документе $D$ извлекаются его символьные n-граммы $G_{w_i}$.

2. **Получение векторов n-грамм**:  
   Для каждой n-граммы $g \in G_{w_i}$ извлекается её вектор $\mathbf{v}_g$ из матрицы входных весов (таблица n-грамм).

3. **Вычисление вектора слова**:  
   Для каждого слова $w_i$ вычисляется вектор:
 $$
   \mathbf{v}_{w_i} = \sum_{g \in G_{w_i}} \mathbf{v}_g \quad \text{(или среднее)}
 $$

4. **Вычисление вектора документа**:  
 $$
   \mathbf{v}_D = \frac{1}{|D|} \sum_{i=1}^{|D|} \mathbf{v}_{w_i}
 $$
   > На практике часто используется суммирование векторов n-грамм всех слов документа, а затем нормализация.

5. **Выбор отрицательных классов**:  
   Выбираются $K$ отрицательных классов $c_{\text{neg}_1}, \dots, c_{\text{neg}_K}$ из распределения частотности классов.

6. **Вычисление счетов и сигмоидов**:
   - Счёт для истинного класса: $s_{\text{true}} = \mathbf{v}_D \cdot \mathbf{u}_{c_{\text{true}}}$
   - Счёт для отрицательного класса: $s_{\text{neg}_k} = \mathbf{v}_D \cdot \mathbf{u}_{c_{\text{neg}_k}}$
   - Сигмоид для истинного: $p_{\text{true}} = \sigma(s_{\text{true}})$
   - Сигмоид для отрицательного: $p_{\text{neg}_k} = \sigma(-s_{\text{neg}_k})$

7. **Вычисление функции потерь**:
 $$
   \mathcal{L} = -\log(p_{\text{true}}) - \sum_{k=1}^{K} \log(p_{\text{neg}_k})
 $$


# 2. Backpropagation (Обратное распространение ошибки)

Цель обратного распространения ошибки — обновить веса векторов n-грамм (входные веса) и веса классов (выходные веса) для минимизации функции потерь $\mathcal{L}$.



### Шаг 1: Вычисление градиентов для выходных весов классов $\mathbf{u}_c$

Мы хотим найти $\frac{\partial \mathcal{L}}{\partial \mathbf{u}_c}$.

Начнём с производной функции потерь по аргументу сигмоидной функции.

Для истинного класса $c_{\text{true}}$:
$$
\frac{\partial \mathcal{L}}{\partial s_{\text{true}}} = \frac{\partial}{\partial s_{\text{true}}} \left( -\log(\sigma(s_{\text{true}})) \right) = -\frac{1}{\sigma(s_{\text{true}})} \cdot \sigma(s_{\text{true}})(1 - \sigma(s_{\text{true}})) = -(1 - \sigma(s_{\text{true}})) = \sigma(s_{\text{true}}) - 1
$$

Для отрицательного класса $c_{\text{neg}_k}$:
$$
\frac{\partial \mathcal{L}}{\partial s_{\text{neg}_k}} = \frac{\partial}{\partial s_{\text{neg}_k}} \left( -\log(\sigma(-s_{\text{neg}_k})) \right) = -\frac{1}{\sigma(-s_{\text{neg}_k})} \cdot \sigma(-s_{\text{neg}_k})(1 - \sigma(-s_{\text{neg}_k})) \cdot (-1) = 1 - \sigma(-s_{\text{neg}_k})
$$

Теперь, используя правило цепи:

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{u}_{c_{\text{true}}}} = \frac{\partial \mathcal{L}}{\partial s_{\text{true}}} \cdot \frac{\partial s_{\text{true}}}{\partial \mathbf{u}_{c_{\text{true}}}} = (\sigma(s_{\text{true}}) - 1) \cdot \mathbf{v}_D
$$

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{u}_{c_{\text{neg}_k}}} = \frac{\partial \mathcal{L}}{\partial s_{\text{neg}_k}} \cdot \frac{\partial s_{\text{neg}_k}}{\partial \mathbf{u}_{c_{\text{neg}_k}}} = (1 - \sigma(-s_{\text{neg}_k})) \cdot \mathbf{v}_D
$$

#### Обновление весов классов:
$$
\mathbf{u}_{c_{\text{true}}} \leftarrow \mathbf{u}_{c_{\text{true}}} - \eta \cdot (\sigma(s_{\text{true}}) - 1) \cdot \mathbf{v}_D
$$
$$
\mathbf{u}_{c_{\text{neg}_k}}} \leftarrow \mathbf{u}_{c_{\text{neg}_k}}} - \eta \cdot (1 - \sigma(-s_{\text{neg}_k})) \cdot \mathbf{v}_D
$$
где $\eta$ — скорость обучения.



### Шаг 2: Вычисление градиентов для вектора документа $\mathbf{v}_D$

Нам нужно найти $\frac{\partial \mathcal{L}}{\partial \mathbf{v}_D}$.

По правилу цепи:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{v}_D} = \frac{\partial \mathcal{L}}{\partial s_{\text{true}}} \cdot \frac{\partial s_{\text{true}}}{\partial \mathbf{v}_D} + \sum_{k=1}^{K} \frac{\partial \mathcal{L}}{\partial s_{\text{neg}_k}} \cdot \frac{\partial s_{\text{neg}_k}}}{\partial \mathbf{v}_D}
$$

Поскольку $s_{\text{true}} = \mathbf{v}_D \cdot \mathbf{u}_{c_{\text{true}}}$, то:
$$
\frac{\partial s_{\text{true}}}{\partial \mathbf{v}_D} = \mathbf{u}_{c_{\text{true}}}
$$

Аналогично:
$$
\frac{\partial s_{\text{neg}_k}}}{\partial \mathbf{v}_D} = \mathbf{u}_{c_{\text{neg}_k}}
$$

Таким образом:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{v}_D} = (\sigma(s_{\text{true}}) - 1) \cdot \mathbf{u}_{c_{\text{true}}} + \sum_{k=1}^{K} (1 - \sigma(-s_{\text{neg}_k})) \cdot \mathbf{u}_{c_{\text{neg}_k}}
$$

Обозначим эту сумму как $\delta_D$. Это «ошибка», которая будет распространяться обратно к входным n-граммам:
$$
\delta_D = \frac{\partial \mathcal{L}}{\partial \mathbf{v}_D}
$$



### Шаг 3: Вычисление градиентов для входных весов n-грамм $\mathbf{v}_g$

Вектор документа $\mathbf{v}_D$ является средним векторов слов, а каждый вектор слова $\mathbf{v}_{w_i}$ — суммой векторов его n-грамм.

Мы хотим найти $\frac{\partial \mathcal{L}}{\partial \mathbf{v}_g}$ для каждой n-граммы $g$.

По цепному правилу:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{v}_g} = \frac{\partial \mathcal{L}}{\partial \mathbf{v}_D} \cdot \frac{\partial \mathbf{v}_D}{\partial \mathbf{v}_g}
$$

Поскольку:
$$
\mathbf{v}_D = \frac{1}{|D|} \sum_{i=1}^{|D|} \mathbf{v}_{w_i}, \quad \mathbf{v}_{w_i} = \sum_{g' \in G_{w_i}} \mathbf{v}_{g'}
$$
то если $g$ — n-грамма слова $w_i$, то:
$$
\frac{\partial \mathbf{v}_D}{\partial \mathbf{v}_g} = \frac{1}{|D|}
$$

Однако **на практике** FastText часто использует **суммирование** векторов n-грамм для слова и **суммирование** векторов слов для документа (без усреднения), а нормализация применяется позже или не требуется. В этом случае:
$$
\frac{\partial \mathbf{v}_D}{\partial \mathbf{v}_g} = 1
$$

Таким образом, для каждой n-граммы $g$ в документе $D$:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{v}_g} = \delta_D
$$

#### Обновление весов n-грамм:

Для каждой n-граммы $g$ в документе $D$:
$$
\mathbf{v}_g \leftarrow \mathbf{v}_g - \eta \cdot \delta_D
$$

Этот процесс повторяется для каждого обучающего примера в течение нескольких эпох.



# FastText для классификации текста

Как уже упоминалось, FastText адаптирует архитектуру CBOW для классификации текста. Вместо предсказания центрального слова по контексту, он предсказывает метку класса по содержимому документа.

1. **Вход**: Документ представляется как «мешок» символьных n-грамм.
2. **Скрытый слой**: Все векторы n-грамм в документе усредняются (или суммируются), формируя вектор представления документа. Этот слой можно рассматривать как «скрытый», хотя он не имеет нелинейной функции активации.
3. **Выходной слой**: Вектор документа подаётся на линейный классификатор (выходной слой), который использует Softmax или Negative Sampling для предсказания вероятностей классов.



# Преимущества и недостатки FastText

## Преимущества

- **Скорость**: Очень быстр в обучении и классификации, что делает его пригодным для очень больших корпусов данных.
- **Обработка OOV-слов**: Благодаря использованию символьных n-грамм, FastText может генерировать векторы для слов, не встречавшихся в обучающем корпусе. Это значительное преимущество по сравнению с Word2Vec.
- **Учёт морфологии**: Символьные n-граммы позволяют модели улавливать морфологические особенности слов (префиксы, суффиксы, корни), что особенно полезно для языков с богатой морфологией.
- **Производительность в классификации**: Демонстрирует высокую производительность в задачах классификации текста, часто сравнимую с более сложными нейронными сетями, но с гораздо меньшими вычислительными затратами.

## Недостатки

- **«Мешок слов»**: Как и другие модели типа «мешок слов», FastText не учитывает порядок слов в предложении, что может быть критично для задач, где важен синтаксис.
- **Размер модели**: Модель может быть достаточно большой из-за хранения векторов для всех уникальных символьных n-грамм.
- **Менее мощный для сложных задач**: Для очень сложных задач понимания естественного языка, требующих глубокого синтаксического и семантического анализа, более сложные модели (например, на основе трансформеров) могут показывать лучшие результаты.



# Заключение

FastText представляет собой мощный и эффективный инструмент для создания представлений слов и классификации текста. Его ключевое отличие — использование **символьных n-грамм**, что позволяет ему эффективно работать с редкими и неизвестными словами, а также учитывать морфологическую структуру языка. Простота архитектуры и высокая скорость обучения делают его отличным выбором для широкого круга задач обработки естественного языка, особенно когда ресурсы ограничены или требуется быстрая обработка больших объёмов данных.











# Аналитический пример FastText: Пошаговые вычисления

Рассмотрим упрощённый пример обучения FastText для задачи классификации текста. Мы используем очень маленький корпус и один обучающий пример, чтобы проиллюстрировать каждый шаг прямого прохода (forward pass).



## Сценарий примера

- **Задача**: Классификация текста  
- **Документ $D_1$**: «хороший фильм»  
- **Истинный класс $c_{\text{true}}$**: «позитив»  
- **Возможные классы**: «позитив», «негатив»  

### Параметры модели:
- Размерность векторов ($d$): 2  
- Скорость обучения ($\eta$): 0.1  
- Размер n-грамм ($n$): 3  
- Количество отрицательных выборок ($K$): 1  



## Инициализация

Предположим, что в нашем словаре n-грамм есть следующие 3-граммы и их начальные векторы (инициализированы случайными малыми значениями):

| n-грамма | Вектор $\mathbf{v}_g$ |
|----------|------------------------|
| `<хор`   | $[0.1, 0.2]$          |
| `хор`    | $[0.05, 0.15]$        |
| `оро`    | $[0.2, 0.1]$          |
| `рог`    | $[0.1, 0.05]$         |
| `оги`    | $[0.15, 0.25]$        |
| `гий`    | $[0.25, 0.0]$         |
| `ий>`    | $[0.0, 0.1]$          |
| `<фил`   | $[0.3, 0.1]$          |
| `фил`    | $[0.1, 0.3]$          |
| `илм`    | $[0.2, 0.2]$          |
| `лм>`    | $[0.05, 0.05]$        |

### Векторы весов классов:
| Класс     | Вектор весов $\mathbf{u}_c$ |
|-----------|-----------------------------|
| позитив   | $[0.1, -0.1]$               |
| негатив   | $[-0.05, 0.05]$             |


## 1. Прямой проход (Forward Pass)

**Документ $D_1$**: «хороший фильм»  
**Истинный класс $c_{\text{true}}$**: «позитив»  
**Отрицательный класс $c_{\text{neg}_1}$** (выбран случайно): «негатив»



### Шаг 1: Извлечение n-грамм для каждого слова

- **Слово "хороший"**:
  - Полные 3-граммы: `<хор`, `хоро`, `орош`, `роши`, `оший`, `ший>`, `ий>`
  - Возьмём только те, что есть в таблице: `<хор`, `оро`, `гий`, `ий>`
  - $G_{\text{хороший}} = \{\text{<хор}, \text{оро}, \text{гий}, \text{ий>}\}$

- **Слово "фильм"**:
  - Полные 3-граммы: `<фил`, `филь`, `ильм`, `лм>`
  - Возьмём только те, что есть в таблице: `<фил`, `илм`, `лм>`
  - $G_{\text{фильм}} = \{\text{<фил}, \text{илм}, \text{лм>}\}$



### Шаг 2: Получение векторов n-грамм (из таблицы инициализации)

- $\mathbf{v}_{\text{<хор}} = [0.1, 0.2]$  
- $\mathbf{v}_{\text{оро}} = [0.2, 0.1]$  
- $\mathbf{v}_{\text{гий}} = [0.25, 0.0]$  
- $\mathbf{v}_{\text{ий>}} = [0.0, 0.1]$  
- $\mathbf{v}_{\text{<фил}} = [0.3, 0.1]$  
- $\mathbf{v}_{\text{илм}} = [0.2, 0.2]$  
- $\mathbf{v}_{\text{лм>}} = [0.05, 0.05]$  



### Шаг 3: Вычисление вектора слова $\mathbf{v}_{w_i}$ (как сумма векторов n-грамм)

- **Вектор слова "хороший"** ($\mathbf{v}_{\text{хороший}}$):
$$
  \mathbf{v}_{\text{хороший}} = \mathbf{v}_{\text{<хор}} + \mathbf{v}_{\text{оро}} + \mathbf{v}_{\text{гий}} + \mathbf{v}_{\text{ий>}}
$$
$$
  = [0.1, 0.2] + [0.2, 0.1] + [0.25, 0.0] + [0.0, 0.1] = [0.55, 0.4]
$$

- **Вектор слова "фильм"** ($\mathbf{v}_{\text{фильм}}$):
$$
  \mathbf{v}_{\text{фильм}} = \mathbf{v}_{\text{<фил}} + \mathbf{v}_{\text{илм}} + \mathbf{v}_{\text{лм>}}
$$
$$
  = [0.3, 0.1] + [0.2, 0.2] + [0.05, 0.05] = [0.55, 0.35]
$$



### Шаг 4: Вычисление вектора документа $\mathbf{v}_D$ (как среднее арифметическое векторов слов)

Документ $D_1 = \{\text{«хороший»}, \text{«фильм»}\}$, $|D_1| = 2$

$$
\mathbf{v}_D = \frac{1}{2} (\mathbf{v}_{\text{хороший}} + \mathbf{v}_{\text{фильм}})
$$
$$
= \frac{1}{2} ([0.55, 0.4] + [0.55, 0.35]) = \frac{1}{2} [1.1, 0.75] = [0.55, 0.375]
$$



### Шаг 5: Выбор отрицательных классов

- **Истинный класс**: $c_{\text{true}} = \text{«позитив»}$
- **Отрицательный класс**: $c_{\text{neg}_1} = \text{«негатив»}$ (выбран случайно)



### Шаг 6: Вычисление счетов и сигмоидов

Используем векторы весов классов:
- $\mathbf{u}_{\text{позитив}} = [0.1, -0.1]$
- $\mathbf{u}_{\text{негатив}} = [-0.05, 0.05]$

#### Счёт для истинного класса ($s_{\text{true}}$):
$$
s_{\text{true}} = \mathbf{v}_D \cdot \mathbf{u}_{\text{позитив}} = [0.55, 0.375] \cdot [0.1, -0.1]
$$
$$
= (0.55 \cdot 0.1) + (0.375 \cdot -0.1) = 0.055 - 0.0375 = 0.0175
$$

#### Сигмоид для истинного класса ($p_{\text{true}}$):
$$
p_{\text{true}} = \sigma(s_{\text{true}}) = \frac{1}{1 + \exp(-s_{\text{true}})} = \frac{1}{1 + \exp(-0.0175)}
$$
$$
\exp(-0.0175) \approx 0.9826
$$
$$
p_{\text{true}} = \frac{1}{1 + 0.9826} = \frac{1}{1.9826} \approx 0.5044
$$

#### Счёт для отрицательного класса ($s_{\text{neg}_1}$):
$$
s_{\text{neg}_1} = \mathbf{v}_D \cdot \mathbf{u}_{\text{негатив}} = [0.55, 0.375] \cdot [-0.05, 0.05]
$$
$$
= (0.55 \cdot -0.05) + (0.375 \cdot 0.05) = -0.0275 + 0.01875 = -0.00875
$$

#### Сигмоид для отрицательного класса ($p_{\text{neg}_1}$):
$$
p_{\text{neg}_1} = \sigma(-s_{\text{neg}_1}) = \frac{1}{1 + \exp(s_{\text{neg}_1})} = \frac{1}{1 + \exp(-0.00875)}
$$
$$
\exp(-0.00875) \approx 0.9913
$$
$$
p_{\text{neg}_1} = \frac{1}{1 + 0.9913} = \frac{1}{1.9913} \approx 0.5022
$$



### Шаг 7: Вычисление функции потерь

$$
\mathcal{L} = -\log(p_{\text{true}}) - \log(p_{\text{neg}_1})
$$
$$
= -\log(0.5044) - \log(0.5022)
$$
$$
\log(0.5044) \approx -0.6844, \quad \log(0.5022) \approx -0.6888
$$
$$
\mathcal{L} = -(-0.6844) - (-0.6888) = 0.6844 + 0.6888 = 1.3732
$$



# 2. Backpropagation (Обратное распространение ошибки)



### Шаг 1: Вычисление градиентов для выходных весов классов $\mathbf{u}_c$

#### • Градиент для $\mathbf{u}_{\text{позитив}}$:

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{u}_{\text{позитив}}} = (\sigma(s_{\text{true}}) - 1) \cdot \mathbf{v}_D
$$

$$
= (0.5044 - 1) \cdot [0.55, 0.375] = (-0.4956) \cdot [0.55, 0.375]
$$

$$
= [-0.4956 \cdot 0.55,\ -0.4956 \cdot 0.375] = [-0.27258,\ -0.18585]
$$

#### • Градиент для $\mathbf{u}_{\text{негатив}}$:

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{u}_{\text{негатив}}} = (1 - \sigma(-s_{\text{neg}_1})) \cdot \mathbf{v}_D
$$

$$
= (1 - 0.5022) \cdot [0.55, 0.375] = 0.4978 \cdot [0.55, 0.375]
$$

$$
= [0.4978 \cdot 0.55,\ 0.4978 \cdot 0.375] = [0.27379,\ 0.186675]
$$



#### Обновление весов классов ($\eta = 0.1$)

##### • Новый $\mathbf{u}_{\text{позитив}}$:
$$
\mathbf{u}_{\text{позитив}}^{\text{new}} = \mathbf{u}_{\text{позитив}}^{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{u}_{\text{позитив}}}
$$
$$
= [0.1, -0.1] - 0.1 \cdot [-0.27258, -0.18585]
$$
$$
= [0.1 - (-0.027258),\ -0.1 - (-0.018585)] = [0.1 + 0.027258,\ -0.1 + 0.018585]
$$
$$
\mathbf{u}_{\text{позитив}}^{\text{new}} = [0.127258,\ -0.081415]
$$

##### • Новый $\mathbf{u}_{\text{негатив}}$:
$$
\mathbf{u}_{\text{негатив}}^{\text{new}} = \mathbf{u}_{\text{негатив}}^{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{u}_{\text{негатив}}}
$$
$$
= [-0.05, 0.05] - 0.1 \cdot [0.27379, 0.186675]
$$
$$
= [-0.05 - 0.027379,\ 0.05 - 0.0186675] = [-0.077379,\ 0.0313325]
$$



### Шаг 2: Вычисление градиентов для вектора документа $\mathbf{v}_D$

$$
\delta_D = \frac{\partial \mathcal{L}}{\partial \mathbf{v}_D} = (\sigma(s_{\text{true}}) - 1) \cdot \mathbf{u}_{\text{позитив}}^{\text{old}} + (1 - \sigma(-s_{\text{neg}_1})) \cdot \mathbf{u}_{\text{негатив}}^{\text{old}}
$$

$$
= (-0.4956) \cdot [0.1, -0.1] + (0.4978) \cdot [-0.05, 0.05]
$$
$$
= [-0.04956, 0.04956] + [-0.02489, 0.02489] = [-0.04956 - 0.02489,\ 0.04956 + 0.02489]
$$
$$
\delta_D = [-0.07445,\ 0.07445]
$$



### Шаг 3: Вычисление градиентов для входных весов n-грамм $\mathbf{v}_g$ и их обновление

Поскольку $\mathbf{v}_D$ — среднее векторов слов, а каждый $\mathbf{v}_{w_i}$ — сумма векторов n-грамм, то градиент по каждой n-грамме $g$, участвующей в документе, равен:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{v}_g} = \frac{1}{|D|} \cdot \delta_D
$$
где $|D| = 2$.

$$
\frac{\partial \mathcal{L}}{\partial \mathbf{v}_g} = \frac{1}{2} \cdot [-0.07445, 0.07445] = [-0.037225,\ 0.037225]
$$



#### Обновление весов n-грамм:
Для каждой n-граммы $g$ из $G_{\text{хороший}}$ и $G_{\text{фильм}}$:
$$
\mathbf{v}_g^{\text{new}} = \mathbf{v}_g^{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial \mathbf{v}_g}
$$
$$
= \mathbf{v}_g^{\text{old}} - 0.1 \cdot [-0.037225, 0.037225] = \mathbf{v}_g^{\text{old}} - [-0.0037225, 0.0037225]
$$

Применим к каждой n-грамме:

- **Для $\mathbf{v}_{\text{<хор}}$**:
$$
  \mathbf{v}_{\text{<хор}}^{\text{new}} = [0.1, 0.2] - [-0.0037225, 0.0037225] = [0.1037225, 0.1962775]
$$

- **Для $\mathbf{v}_{\text{оро}}$**:
$$
  \mathbf{v}_{\text{оро}}^{\text{new}} = [0.2, 0.1] - [-0.0037225, 0.0037225] = [0.2037225, 0.0962775]
$$

- **Для $\mathbf{v}_{\text{гий}}$**:
$$
  \mathbf{v}_{\text{гий}}^{\text{new}} = [0.25, 0.0] - [-0.0037225, 0.0037225] = [0.2537225, -0.0037225]
$$

- **Для $\mathbf{v}_{\text{ий>}}$**:
$$
  \mathbf{v}_{\text{ий>}}^{\text{new}} = [0.0, 0.1] - [-0.0037225, 0.0037225] = [0.0037225, 0.0962775]
$$

- **Для $\mathbf{v}_{\text{<фил}}$**:
$$
  \mathbf{v}_{\text{<фил}}^{\text{new}} = [0.3, 0.1] - [-0.0037225, 0.0037225] = [0.3037225, 0.0962775]
$$

- **Для $\mathbf{v}_{\text{илм}}$**:
$$
  \mathbf{v}_{\text{илм}}^{\text{new}} = [0.2, 0.2] - [-0.0037225, 0.0037225] = [0.2037225, 0.1962775]
$$

- **Для $\mathbf{v}_{\text{лм>}}$**:
$$
  \mathbf{v}_{\text{лм>}}^{\text{new}} = [0.05, 0.05] - [-0.0037225, 0.0037225] = [0.0537225, 0.0462775]
$$



# Заключение по примеру

Мы выполнили один шаг обучения (обработку одного обучающего примера) для FastText:

- В **прямом проходе** вычислили вектор документа, счета для классов и значение функции потерь.
- В **обратном распространении** вычислили градиенты и обновили веса:
  - выходного слоя (векторы классов),
  - входного слоя (векторы n-грамм).

После этого шага веса были скорректированы так, чтобы:
- **увеличить** вероятность истинного класса («позитив») для данного документа,
- **уменьшить** вероятность отрицательного класса («негатив»).

Этот процесс повторяется для всех обучающих примеров в корпусе в течение нескольких эпох, пока функция потерь не сойдётся к минимуму. С каждым шагом модель учится лучше сопоставлять документы с их истинными классами, корректируя векторы n-грамм и веса классов.



# §7. Дообучение и публикация Word2Vec, GloVe, FastText моделей на Hugging Face

В этом разделе мы подробно рассмотрим процесс **дообучения** (или обучения на пользовательских данных) классических моделей векторных представлений слов — **Word2Vec**, **GloVe** и **FastText**. Также мы покажем, как подготовить эти модели и опубликовать их на **Hugging Face Hub**, что позволит легко делиться ими с сообществом или использовать в других проектах.

В качестве исходных данных будет использоваться файл в формате **JSONL**, содержащий несколько тысяч статей.



## 1. Подготовка данных: Загрузка и предобработка JSONL-статей

Прежде чем обучать модель векторных представлений слов, необходимо загрузить и подготовить текстовые данные. В нашем случае статьи хранятся в формате **JSONL**, где каждая строка — это отдельный JSON-объект.

Пример файла `articles.jsonl`:
```json
{"id": 1, "title": "Введение в NLP", "text": "Обработка естественного языка — это область искусственного интеллекта..."}
{"id": 2, "title": "Новые методы векторизации", "text": "Современные подходы к представлению текста включают Word2Vec, GloVe и FastText..."}
```

Для загрузки и предобработки (токенизация, приведение к нижнему регистру) используем Python.

### Шаг 1: Загрузка данных из JSONL

Прочитаем файл построчно и извлечём текст каждой статьи.

### Шаг 2: Токенизация и приведение к нижнему регистру

Для обучения моделей Word2Vec, GloVe и FastText текст должен быть разбит на токены и, как правило, приведён к нижнему регистру — это уменьшает размер словаря и улучшает качество эмбеддингов. Мы будем использовать `nltk.word_tokenize` для токенизации.



In [None]:
import json
from nltk.tokenize import word_tokenize
import nltk
from tqdm import tqdm

# Загрузка токенизатора (если еще не загружен)
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')
nltk.download('punkt_tab')

def load_and_preprocess_articles(jsonl_filepath, text_field='text'):
    """
    Загружает статьи из JSONL-файла, токенизирует их и приводит к нижнему регистру.

    Args:
        jsonl_filepath (str): Путь к JSONL-файлу.
        text_field (str): Название поля, содержащего текст статьи.

    Returns:
        list: Список списков токенов (каждый список — одна статья).
    """
    tokenized_sentences = []
    print(f"Загрузка и предобработка статей из '{jsonl_filepath}'...")

    # Подсчёт количества строк для прогресс-бара
    total_lines = sum(1 for _ in open(jsonl_filepath, 'r', encoding='utf-8'))

    with open(jsonl_filepath, 'r', encoding='utf-8') as f:
        for line in tqdm(f, total=total_lines, desc="Обработка статей"):
            try:
                article = json.loads(line.strip())
                text = article.get(text_field, "")
                if text:
                    tokens = word_tokenize(text.lower())
                    tokenized_sentences.append(tokens)
            except json.JSONDecodeError as e:
                print(f"Ошибка декодирования JSON в строке: {line.strip()}. Ошибка: {e}")
            except Exception as e:
                print(f"Неизвестная ошибка при обработке строки: {line.strip()}. Ошибка: {e}")

    print(f"Загружено и токенизировано {len(tokenized_sentences)} статей.")
    return tokenized_sentences

# Создание фиктивного JSONL-файла для демонстрации
dummy_articles_data = [
    {"id": 1, "title": "Введение в NLP", "text": "Обработка естественного языка — это область искусственного интеллекта, которая изучает взаимодействие компьютеров и человеческого языка."},
    {"id": 2, "title": "Новые методы векторизации", "text": "Современные подходы к представлению текста включают Word2Vec, GloVe и FastText. Эти модели преобразуют слова в числовые векторы."},
    {"id": 3, "title": "Применение машинного обучения", "text": "Машинное обучение используется во многих областях, таких как распознавание изображений, прогнозирование и анализ данных."},
    {"id": 4, "title": "Будущее ИИ", "text": "Искусственный интеллект продолжает развиваться, открывая новые возможности и вызовы для человечества."},
    {"id": 5, "title": "Основы программирования", "text": "Изучение основ программирования важно для любого, кто хочет работать с данными или разрабатывать программное обеспечение."}
]

dummy_jsonl_filepath = "articles.jsonl"
with open(dummy_jsonl_filepath, 'w', encoding='utf-8') as f:
    for item in dummy_articles_data:
        f.write(json.dumps(item, ensure_ascii=False) + '\n')

# Загрузка и предобработка данных
articles_data = load_and_preprocess_articles(dummy_jsonl_filepath)

# Проверка: вывод первых нескольких токенизированных статей
print("\nПервые 2 токенизированные статьи:")
for i, tokens in enumerate(articles_data[:2]):
    print(f"Статья {i+1}: {tokens[:20]}...")  # Первые 20 токенов



## 2. Дообучение Word2Vec (CBOW, Skip-gram)

Word2Vec — это семейство моделей, которые обучаются на гипотезе распределения: *слова, появляющиеся в похожих контекстах, имеют схожие значения*. Модель генерирует плотные векторные представления слов (эмбеддинги), эффективно захватывая семантические и синтаксические отношения.

В библиотеке `gensim` термин «дообучение» может означать:
- **обучение модели с нуля на вашем корпусе**, или
- **продолжение обучения (обновление) уже предварительно обученной модели** на новых данных.

### • Обучение с нуля
Если у вас есть достаточно большой и тематически специфичный корпус (несколько тысяч статей), часто лучше обучить Word2Vec с нуля. Это позволяет модели уловить доменные особенности, характерные именно для вашего текста.

### • Продолжение обучения (fine-tuning)
Если у вас уже есть предобученная модель (например, на Wikipedia), и вы хотите адаптировать её к вашему домену, можно продолжить обучение на новых данных. Этот подход эффективен, когда ваш корпус дополняет общую тематику исходного корпуса.

Ниже приведён пример **обучения с нуля**, так как для корпуса из нескольких тысяч статей это часто даёт хорошие результаты. Также продемонстрировано, как можно **обновить существующую модель**.




In [None]:
# Установка библиотеки (только в Colab)
#!pip install -q gensim

from gensim.models import Word2Vec
from gensim.utils import simple_preprocess
import logging

# === Включение логирования gensim ===
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# === 0. Пример текстов для обучения (можно заменить своими) ===
articles_raw = [
    "Искусственный интеллект — это область информатики.",
    "Обработка естественного языка — важная задача машинного обучения.",
    "Нейронные сети широко применяются в анализе текста.",
    "Язык — один из ключевых элементов человеческой культуры.",
    "Машинное обучение помогает анализировать большие объёмы данных."
]

# === 1. Токенизация текста ===
articles_data = [simple_preprocess(doc) for doc in articles_raw]
print("Пример токенизированных данных:", articles_data[:2])

# === 2. Параметры модели Word2Vec ===
vector_size = 100     # размерность векторов
window = 10           # окно контекста
min_count = 1         # минимальная частота слов
workers = 4           # количество потоков
epochs = 10           # эпохи обучения
seed = 42             # для воспроизводимости

# === 3. Обучение модели Word2Vec (Skip-gram) ===
print("\n[1] Обучение Word2Vec (Skip-gram)...")
model_w2v_skipgram = Word2Vec(
    sentences=articles_data,
    vector_size=vector_size,
    window=window,
    min_count=min_count,
    sg=1,  # Skip-gram
    workers=workers,
    epochs=epochs,
    seed=seed
)
print("✅ Skip-gram модель обучена.")

# === 4. Тестирование Skip-gram ===
test_words = ['интеллект', 'язык']
for word in test_words:
    try:
        print(f"\n— Вектор для слова '{word}': {model_w2v_skipgram.wv[word][:5]}")
        print(f"  Похожие слова: {model_w2v_skipgram.wv.most_similar(word, topn=3)}")
    except KeyError:
        print(f"⚠️ Слово '{word}' отсутствует в словаре.")

# === 5. Обучение модели Word2Vec (CBOW) ===
print("\n[2] Обучение Word2Vec (CBOW)...")
model_w2v_cbow = Word2Vec(
    sentences=articles_data,
    vector_size=vector_size,
    window=window,
    min_count=min_count,
    sg=0,  # CBOW
    workers=workers,
    epochs=epochs,
    seed=seed
)
print("✅ CBOW модель обучена.")

# === 6. Тестирование CBOW ===
try:
    print(f"\n— Похожие слова к 'анализ': {model_w2v_cbow.wv.most_similar('анализ', topn=3)}")
except KeyError:
    print("⚠️ Слово 'анализ' отсутствует в словаре.")

# === 7. Дообучение существующей модели Word2Vec ===
print("\n[3] Продолжение обучения модели...")

# Базовый корпус
base_corpus = [["машина", "едет", "по", "дороге"], ["человек", "идет", "по", "тротуару"]]

# Создание базовой модели
base_model = Word2Vec(
    sentences=base_corpus,
    vector_size=vector_size,
    window=5,
    min_count=1,
    workers=workers,
    seed=seed
)

# Обновление словаря и дообучение
base_model.build_vocab(articles_data, update=True)
base_model.train(articles_data, total_examples=base_model.corpus_count, epochs=epochs)
print("✅ Базовая модель дообучена.")

# === 8. Сохранение всех моделей ===
model_w2v_skipgram.save("word2vec_skipgram.model")
model_w2v_cbow.save("word2vec_cbow.model")
base_model.save("word2vec_base_extended.model")

print("\n📦 Все модели Word2Vec успешно сохранены:")
print(" - word2vec_skipgram.model")
print(" - word2vec_cbow.model")
print(" - word2vec_base_extended.model")


## 3. Дообучение GloVe

**GloVe (Global Vectors for Word Representation)** — это модель, которая обучается на **глобальной статистике совместной встречаемости слов**. В отличие от Word2Vec, основывающегося на контекстных окнах и предсказании слов, GloVe использует матрицу слово-слово, где каждый элемент — это частота, с которой одно слово появляется в контексте другого.

Библиотека `gensim` не предоставляет встроенной реализации обучения GloVe с нуля. Поэтому "дообучение" GloVe в привычном смысле (как у трансформеров) не является стандартной практикой. Если вы хотите адаптировать GloVe к вашему домену, **наиболее эффективный способ — обучить новую модель с нуля на вашем корпусе**.

### Процесс обучения GloVe

Обучение GloVe включает два основных этапа:

1. **Построение матрицы совместной встречаемости**:  
   Подсчёт, сколько раз каждое слово встречается в контексте каждого другого слова в корпусе. Учитывается расстояние между словами (ближайшие слова весят больше).

2. **Оптимизация функции потерь**:  
   Итеративное обновление векторов слов так, чтобы скалярное произведение векторов приближалось к логарифму частоты их совместного появления.

Ниже мы покажем, как построить матрицу совместной встречаемости — **первый и наиболее важный шаг**. Для самой оптимизации потребуются специализированные библиотеки (например, `glove-python`, `torch`, `gensim` с кастомным решением).



In [None]:
from collections import defaultdict
import numpy as np
from scipy.sparse import lil_matrix
from tqdm import tqdm
from gensim.models import KeyedVectors
import logging

# Логгирование
logging.basicConfig(level=logging.INFO)
print("\n--- Подготовка данных для GloVe (матрица совместной встречаемости) ---")

# === Проверка и подготовка данных ===
try:
    assert 'articles_data' in globals()
except AssertionError:
    raise ValueError("Переменная `articles_data` не определена. Задайте её как список списков токенов.")

# === Параметры ===
window_size = 10        # Контекстное окно
vector_size = 100       # Размерность векторов (должен совпадать с GloVe embedding размером)

# === Создание словаря: слово -> индекс ===
word_to_idx = {}
idx_to_word = []

for sentence in articles_data:
    for word in sentence:
        if word not in word_to_idx:
            word_to_idx[word] = len(idx_to_word)
            idx_to_word.append(word)

vocab_size = len(word_to_idx)
print(f"📏 Размер словаря для GloVe: {vocab_size} уникальных слов.")

# === Инициализация разреженной матрицы (для экономии памяти) ===
co_occurrence_matrix = lil_matrix((vocab_size, vocab_size), dtype=np.float32)

# === Функция взвешивания по расстоянию: чем ближе — тем выше вес ===
def distance_weight(distance: int) -> float:
    return 1.0 / distance if distance != 0 else 0.0

# === Построение матрицы совместной встречаемости ===
print("🔄 Построение матрицы совместной встречаемости...")
for sentence in tqdm(articles_data, desc="Building co-occurrence matrix"):
    for i, target_word in enumerate(sentence):
        target_idx = word_to_idx[target_word]
        start = max(0, i - window_size)
        end = min(len(sentence), i + window_size + 1)

        for j in range(start, end):
            if i == j:
                continue
            context_word = sentence[j]
            context_idx = word_to_idx[context_word]
            distance = abs(i - j)
            weight = distance_weight(distance)

            co_occurrence_matrix[target_idx, context_idx] += weight

print("✅ Матрица совместной встречаемости построена.")

# === (опционально) преобразуем в CSR для последующей работы ===
# co_occurrence_matrix = co_occurrence_matrix.tocsr()

# === Демонстрация: фиктивные эмбеддинги GloVe (для теста, не обучение) ===
print("\n🎲 Генерация фиктивных GloVe-векторов...")
glove_embeddings_dict = {
    word: np.random.rand(vector_size) for word in word_to_idx
}

# === Сохранение в формате KeyedVectors (Gensim совместимо) ===
print("💾 Сохранение в формате Gensim KeyedVectors...")
glove_kv = KeyedVectors(vector_size=vector_size)
glove_kv.add_vectors(
    list(glove_embeddings_dict.keys()),
    np.array(list(glove_embeddings_dict.values()))
)
glove_kv.save("glove_vectors.kv")
print("✅ Фиктивные GloVe-векторы сохранены: glove_vectors.kv")

In [None]:
from gensim.models import KeyedVectors

# Загрузка сохранённой модели
glove_kv = KeyedVectors.load("glove_vectors.kv")

word = "язык"
if word in glove_kv:
    vector = glove_kv[word]
    print(f"🔢 Вектор для слова '{word}' (первые 5 значений):\n{vector[:5]}")
else:
    print(f"⚠️ Слово '{word}' отсутствует в словаре.")

try:
    similar_words = glove_kv.most_similar("интеллект", topn=5)
    print("🔍 Похожие слова к 'интеллект':")
    for word, score in similar_words:
        print(f"  {word}: {score:.3f}")
except KeyError:
    print("⚠️ Слово 'интеллект' отсутствует в словаре.")

try:
    sim = glove_kv.similarity("язык", "текст")
    print(f"📏 Косинусная похожесть между 'язык' и 'текст': {sim:.4f}")
except KeyError as e:
    print(f"⚠️ Слово {e} не найдено в словаре.")

# Минимальный тест после загрузки модели
glove_kv = KeyedVectors.load("glove_vectors.kv")

for test_word in ["язык", "текст", "интеллект"]:
    if test_word in glove_kv:
        print(f"\nСлово: {test_word}")
        print("  Вектор (первые 5 значений):", glove_kv[test_word][:5])
        print("  Похожие слова:", glove_kv.most_similar(test_word, topn=3))
    else:
        print(f"⚠️ Слово '{test_word}' отсутствует.")


## 4. Дообучение FastText

**FastText** — это расширение модели Word2Vec, разработанное командой Facebook AI. В отличие от Word2Vec, FastText учитывает **морфологическую структуру слов**, разбивая их на **символьные n-граммы** (например, слово *"программирование"* может быть разбито на `<про`, `про`, `рограм`, `огам` и т.д.). Это позволяет модели:

- Генерировать векторы для **неизвестных слов (OOV — out-of-vocabulary)**.
- Лучше работать с **морфологически богатыми языками**, такими как русский, арабский или турецкий.
- Улавливать семантическое сходство между словами с общими корнями (например, "программист", "программирование", "программа").

Процесс дообучения FastText в `gensim` аналогичен Word2Vec и поддерживает два подхода:

### • Обучение с нуля  
Рекомендуется, если у вас есть достаточно большой и тематически релевантный корпус. Это позволяет модели уловить доменные особенности.

### • Продолжение обучения (fine-tuning)  
FastText поддерживает дообучение уже существующей модели на новых данных — полезно для адаптации предобученных моделей к вашему домену.


In [None]:
from gensim.models import FastText
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string

nltk.download("punkt")
nltk.download("stopwords")

print("\n--- Обучение FastText ---")

# ==== Подготовка данных ====
# Пример текстов
raw_texts = [
    "Программирование — это процесс создания программ.",
    "Разработчик пишет код и тестирует программные продукты.",
    "Искусственный интеллект и машинное обучение развиваются быстро."
]

# Токенизация и очистка
stop_words = set(stopwords.words("russian"))
articles_data = []
for text in raw_texts:
    tokens = word_tokenize(text.lower())
    words = [word for word in tokens if word.isalpha() and word not in stop_words]
    articles_data.append(words)

# ==== Параметры ====
vector_size = 100
window = 5
min_count = 1
workers = 4
epochs = 10
min_n = 3
max_n = 6

# ==== Обучение модели ====
model_fasttext = FastText(
    vector_size=vector_size,
    window=window,
    min_count=min_count,
    sg=1,
    workers=workers,
    min_n=min_n,
    max_n=max_n,
    seed=42
)

# Построение словаря
model_fasttext.build_vocab(corpus_iterable=articles_data)

# Обучение модели
model_fasttext.train(
    corpus_iterable=articles_data,
    total_examples=len(articles_data),
    epochs=epochs
)

print("Модель FastText обучена.")

# ==== Тестирование ====
try:
    print(f"\nВектор слова 'программирование': {model_fasttext.wv['программирование'][:5]}")
    print(f"Похожие слова: {model_fasttext.wv.most_similar('программирование', topn=3)}")
except KeyError:
    print("Слово 'программирование' отсутствует в словаре.")

# ==== OOV ====
oov_test_word = "разработчик"
if oov_test_word in model_fasttext.wv:
    print(f"\nСлово '{oov_test_word}' найдено в словаре.")
else:
    print(f"\nСлово '{oov_test_word}' не найдено, FastText сгенерирует вектор.")
print(f"Вектор для '{oov_test_word}': {model_fasttext.wv[oov_test_word][:5]}")
print(f"Похожие слова: {model_fasttext.wv.most_similar(oov_test_word, topn=3)}")

# ==== Сохранение ====
model_fasttext.save("fasttext_model.model")
print("\nМодель FastText сохранена.")



# §8. Ограничения статических эмбеддингов: Подробное описание

Модели **Word2Vec**, **GloVe** и **FastText** стали прорывом в обработке естественного языка (NLP), позволив моделям работать с семантикой слов, а не только с их поверхностной формой. Однако все они относятся к категории **статических эмбеддингов** — это означает, что каждому слову в словаре присваивается **один фиксированный вектор**, который **не меняется** в зависимости от контекста.

Это фундаментальное ограничение приводит к серьёзным проблемам, мешающим моделям глубоко понимать язык.



## 1. Проблема многозначности (полисемии)

**Полисемия** — явление, при котором одно слово имеет несколько связанных, но различных значений. В естественном языке это повсеместно. Статические эмбеддинги не могут эффективно справляться с этим, так как генерируют **один усреднённый вектор**, который пытается охватить все значения слова, увиденные в обучающем корпусе.

### • Суть проблемы
Например, слово **"банк"** может означать:
- финансовое учреждение,
- берег реки,
- песчаный бархан.

Модель усредняет все эти контексты в один вектор, который оказывается где-то «между» финансовыми и географическими понятиями.

### • Последствия
- **Неточное представление смысла**: Усреднённый вектор не отражает конкретное значение в предложении.
- **Снижение производительности**: В задачах, где важно понимание контекста (например, QA, анализ настроений), модель даёт ошибочные ответы.
- **Ошибки в поиске похожих слов**: При запросе "похожие на 'банк'" модель может выдать как "кредит", так и "река", что затрудняет интерпретацию.

### • Аналитический пример: слово "замок"
1. **Архитектурное сооружение**:  
   *"Старинный замок возвышался над долиной."*  
   → Связано с: *дворец, крепость, башня*.
2. **Запирающее устройство**:  
   *"Я потерял замок от двери."*  
   → Связано с: *ключ, дверь, открывать*.

Со статическими эмбеддингами вектор `V_замок` будет компромиссом между этими двумя значениями. При поиске ближайших слов модель может вернуть и "крепость", и "ключ", не понимая, какое значение актуально в текущем контексте.

> 🧠 **Концептуально**: вектор "замок" находится между "крепость" и "ключ", что иллюстрирует его неоднозначность.



## 2. Отсутствие контекста

Статические эмбеддинги не учитывают, как слово взаимодействует с другими словами в предложении. Вектор остаётся неизменным, даже если контекст кардинально меняет его смысл.

### • Суть проблемы
Модель не понимает:
- синтаксические зависимости,
- отрицания,
- идиомы,
- тонкие нюансы, возникающие из комбинации слов.

### • Последствия
- **Неспособность понимать отрицание и сарказм**:  
  Не может распознать, что *"не хороший"* — это отрицание, а не просто наличие слова "хороший".
- **Проблемы с идиомами**:  
  Выражение *"бить баклуши"* (бездельничать) теряет смысл, если анализировать "бить" и "баклуши" отдельно.
- **Потеря синтаксической информации**:  
  Порядок слов и грамматические конструкции не отражаются в фиксированных векторах.

### • Пример: влияние отрицания
1. *"Этот фильм хороший."* → **Положительное** настроение.  
2. *"Этот фильм не хороший."* → **Отрицательное** настроение.

В обоих случаях вектор `V_хороший` одинаков. Модель видит слово "хороший" и может ошибочно классифицировать второе предложение как позитивное, игнорируя частицу "не".

> 🔍 **Концептуальное сравнение**:
> - `V_фильм + V_хороший` — положительное.
> - `V_фильм + V_не + V_хороший` — всё ещё близко к положительному, если модель не умеет обрабатывать модификаторы.



## 3. Неспособность к обучению на новых данных (без полного переобучения)

После обучения статические эмбеддинги становятся **фиксированными**. Их нельзя легко обновить или адаптировать к новым словам или изменениям в языке без **полного переобучения** на новом корпусе.

### • Суть проблемы
Язык динамичен:
- появляются неологизмы,
- меняются значения слов,
- возникает сленг и аббревиатуры.

Статические модели не могут естественно адаптироваться к этим изменениям.

### • Последствия
- **Проблема OOV (Out-of-Vocabulary)**:  
  - Word2Vec и GloVe **не могут** генерировать векторы для новых слов.  
  - FastText может, но на основе подслов, что не всегда оптимально.
- **Устаревание эмбеддингов**:  
  Векторы перестают отражать современное употребление слов.
- **Высокие затраты на обновление**:  
  Переобучение на больших корпусах требует огромных вычислительных ресурсов.
- **Неэффективность в динамических доменах**:  
  В технологиях, медицине, соцсетях терминология быстро меняется, и статические эмбеддинги быстро устаревают.

### • Пример: эволюция слова "смартфон"
- **2010 год**: контекст — *телефон, мобильный, звонок*.  
- **2020 год**: контекст — *приложения, камера, интернет, соцсети*.

Если модель не переобучена, её вектор для "смартфон" остаётся "замороженным" в 2010-х, не отражая современного смысла.  
Новое слово *"зумить"* (проводить встречу в Zoom) останется OOV, если его не было в исходном корпусе.


## Заключение

Ограничения статических эмбеддингов — **полисемия**, **отсутствие контекста** и **неспособность к адаптации** — стали катализатором для разработки **контекстно-зависимых эмбеддингов**.

Это привело к появлению моделей, таких как **ELMo**, **BERT**, **GPT** и других на основе **архитектуры Трансформера**, которые генерируют векторы **динамически**, в зависимости от контекста. Такие модели:
- понимают разные значения одного слова,
- учитывают отрицания и идиомы,
- могут адаптироваться к новым данным через дообучение.

Таким образом, контекстно-зависимые эмбеддинги преодолели ключевые ограничения статических моделей, открыв новую эру в понимании естественного языка.
