<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/NLP/Lesson%202.%20%20%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B5_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%81%D0%BB%D0%BE%D0%B2_(Word2Vec%2CGloVe%2CELMo%2CSkip_Gram)/Lecture_2_%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81%D0%BB%D0%BE%D0%B2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Векторное представление слов

## Введение

Векторное представление слов — это метод, с помощью которого слова преобразуются в векторы чисел для удобства анализа и работы с текстом. Основная идея в том, что близкие по смыслу слова будут иметь схожие векторные представления. Векторизация позволяет применить методы линейной алгебры и машинного обучения для работы с текстовыми данными.

Ранее, при работе с текстом, слова представлялись в виде простых индексов, что не учитывало их семантику. Векторное представление же позволяет улавливать смысловые связи, что стало прорывом в обработке естественного языка (NLP).

---

## Основные методы векторного представления слов

Существует несколько подходов для создания векторного представления слов. Рассмотрим основные:

1. **One-Hot Encoding**
2. **Bag of Words (BoW)**
3. **TF-IDF (Term Frequency-Inverse Document Frequency)**
4. **Word2Vec (CBOW и Skip-Gram)**
5. **GloVe**
6. **FastText**




## 1. One-Hot Encoding (Один горячий код)

**One-Hot Encoding (OHE)** — это один из самых простых методов для представления слов в виде числовых векторов. Суть метода заключается в том, что каждому слову в словаре соответствует уникальный вектор, в котором только одна позиция равна 1 (или "горячая"), а все остальные позиции равны 0 (или "холодные").

#### Принцип работы One-Hot Encoding

Предположим, у нас есть небольшой словарь, состоящий из трех слов:
- `cat` (кот),
- `dog` (собака),
- `mouse` (мышь).

Этот словарь можно представить как набор индексов для каждого слова:
- `cat` — индекс 0,
- `dog` — индекс 1,
- `mouse` — индекс 2.

Для представления слов с помощью OHE мы создаём вектор размерности, равной количеству слов в словаре (в нашем случае 3). Каждый вектор будет содержать 1 на позиции, соответствующей индексу слова, и 0 на всех остальных позициях. Таким образом, для каждого слова в словаре будет свой уникальный вектор:

- `cat` -> [1, 0, 0]
- `dog` -> [0, 1, 0]
- `mouse` -> [0, 0, 1]

#### Пример 1: Кодирование нескольких слов

Допустим, у нас есть предложение: "cat and dog".

Предположим, что у нас словарь состоит из следующих слов: {"cat", "dog", "mouse", "and", "the"}.

Представление слов в этом предложении будет следующим:

- "cat" -> [1, 0, 0, 0, 0]
- "and" -> [0, 0, 0, 1, 0]
- "dog" -> [0, 1, 0, 0, 0]

Векторное представление слов будет иметь размерность 5, так как словарь содержит 5 слов.

#### Недостатки One-Hot Encoding

1. **Высокая размерность**:
    - При большом словаре размерность векторов становится очень большой. Например, если словарь содержит 10,000 уникальных слов, то каждый вектор будет иметь 10,000 элементов. Это приводит к значительному увеличению объема данных и необходимости работы с высокоразмерными векторами, что требует значительных вычислительных ресурсов.
  
2. **Проблема с синтаксической и семантической информацией**:
    - Вектора One-Hot Encoding не содержат никакой информации о значении слов или их контексте. Все слова, независимо от их значений, представляются одинаково в виде векторов с одним активным элементом. Например, слова "cat" и "dog" могут быть семантически схожи (оба — это животные), но в представлении One-Hot они будут абсолютно разные и не будет явной связи между ними в пространстве векторов.

#### Пример 2: Несоответствие в контексте

Предположим, у нас есть два слова "cat" (кот) и "dog" (собака). Они имеют схожие значения, потому что оба относятся к животным, но при использовании One-Hot Encoding их представления будут такими:

- `cat` -> [1, 0, 0]
- `dog` -> [0, 1, 0]

Между ними нет явной связи в векторном пространстве. Это является существенным ограничением One-Hot Encoding. Например, при расчете **косинусного сходства** между этими двумя векторами получится, что их сходство равно нулю, так как они находятся в разных точках многомерного пространства.

\[
\text{cos}(\vec{cat}, \vec{dog}) = \frac{\vec{cat} \cdot \vec{dog}}{\|\vec{cat}\| \|\vec{dog}\|} = \frac{0}{1} = 0
\]

Таким образом, One-Hot Encoding не может захватывать смысловое сходство между словами, что ограничивает его применение в задачах обработки естественного языка (NLP), где важна семантика и контекст.

#### Пример 3: Увеличение размерности

Если у нас будет больше слов в словаре, например, 1,000 слов, то размерность вектора увеличится до 1,000, и это приведет к значительному увеличению объема данных. Например, если необходимо представить набор документов или большие коллекции текста, то размерность этих векторов будет очень велика, и обработка таких данных станет дорогостоящей.

Если словарь увеличится до 10,000 слов, то для представления каждого слова потребуется вектор длиной 10,000, что приведет к увеличению нагрузки на память и процессор. Это делает One-Hot Encoding непригодным для работы с большими корпусами текста.

Таким образом:

**One-Hot Encoding** — это простой и интуитивно понятный метод представления слов, но он имеет значительные ограничения:
- Высокая размерность.
- Отсутствие учета семантического сходства между словами.

Этот метод подходит для небольших и простых задач, но для более сложных задач, например, анализа текста, где важна семантика и контекст, требуется использование более сложных методов представления слов, таких как **Word2Vec** или **GloVe**, которые могут эффективно учитывать семантические связи между словами.



Чтобы реализовать **One-Hot Encoding** на Python, можно использовать несколько подходов. Один из самых популярных методов — это использование библиотеки **`sklearn`**, которая предоставляет класс **`OneHotEncoder`** для кодирования данных. Также можно реализовать этот метод вручную, создавая векторы с помощью базовых операций Python.

Рассмотрим оба варианта.

### 1. Реализация с использованием `sklearn`

Библиотека **`sklearn`** предоставляет простой и удобный способ кодирования данных с помощью класса **`OneHotEncoder`**. Однако этот метод обычно используется для числовых данных или категориальных признаков. Мы можем использовать его и для строковых данных, как в случае с текстом.




In [1]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Пример словаря
words = ['cat', 'dog', 'mouse']

# Преобразуем список в массив
words_array = np.array(words).reshape(-1, 1)

# Создаем объект OneHotEncoder
encoder = OneHotEncoder(sparse=False)

# Применяем OneHotEncoding
one_hot_encoded = encoder.fit_transform(words_array)

# Выводим результат
print("One-Hot Encoding representation:")
print(one_hot_encoded)

TypeError: OneHotEncoder.__init__() got an unexpected keyword argument 'sparse'




### Пояснение:
- Мы преобразуем список слов в массив с одной колонкой (это необходимо для корректной работы `OneHotEncoder`).
- Метод **`fit_transform`** создает и применяет One-Hot кодирование.
- Параметр `sparse=False` позволяет получить результат в виде обычного массива (если оставить `sparse=True`, результат будет в виде разреженной матрицы).

### 2. Реализация вручную

Если не хочется использовать сторонние библиотеки, можно реализовать **One-Hot Encoding** вручную. Например, используя словарь, в котором каждому слову будет сопоставлен его индекс.





In [2]:
# Пример словаря
words = ['cat', 'dog', 'mouse']

# Создаем словарь, который будет содержать индексы для каждого слова
word_to_index = {word: idx for idx, word in enumerate(words)}

# Функция для преобразования слова в его One-Hot представление
def one_hot_encoding(word, word_to_index):
    # Создаем вектор размером равным количеству слов в словаре
    one_hot_vector = [0] * len(word_to_index)

    # Получаем индекс слова и ставим 1 на соответствующую позицию
    index = word_to_index.get(word)
    if index is not None:
        one_hot_vector[index] = 1

    return one_hot_vector

# Применяем функцию для кодирования
print("One-Hot Encoding:")
for word in words:
    print(f"'{word}': {one_hot_encoding(word, word_to_index)}")

One-Hot Encoding:
'cat': [1, 0, 0]
'dog': [0, 1, 0]
'mouse': [0, 0, 1]





### Пояснение:
- Мы создаем словарь `word_to_index`, который сопоставляет каждому слову его индекс в списке.
- В функции **`one_hot_encoding`** мы создаем вектор с нулями и устанавливаем "1" на позиции, которая соответствует индексу текущего слова.
- Так как размерность вектора зависит от количества уникальных слов, размерность вектора будет автоматически соответствовать числу слов в словаре.

### 3. Реализация с использованием библиотеки `pandas`

Также можно использовать библиотеку **`pandas`** для работы с данными, что сделает процесс кодирования еще удобнее.





In [3]:
import pandas as pd

# Пример списка слов
words = ['cat', 'dog', 'mouse']

# Преобразуем список в DataFrame
df = pd.DataFrame(words, columns=['word'])

# Применяем One-Hot Encoding с использованием pandas.get_dummies()
one_hot_encoded_df = pd.get_dummies(df['word'])

# Выводим результат
print("One-Hot Encoding with pandas:")
print(one_hot_encoded_df)

One-Hot Encoding with pandas:
     cat    dog  mouse
0   True  False  False
1  False   True  False
2  False  False   True





### Пояснение:
- Сначала мы создаем DataFrame из списка слов.
- Метод **`pd.get_dummies`** автоматически применяет One-Hot кодирование и преобразует категориальные значения в столбцы, где значения будут 1 или 0 в зависимости от наличия или отсутствия категории в строке.

Таким образом, реализация **One-Hot Encoding** может быть выполнена разными способами:
- Использование **`sklearn`** удобно и быстро, особенно для работы с категориальными данными в более сложных моделях.
- Реализация вручную дает полное понимание процесса и позволяет кастомизировать решение под конкретные задачи.
- **`pandas`** предоставляет очень удобный и простой метод для работы с табличными данными и кодирования категориальных признаков.

Каждый из этих методов имеет свои преимущества, и выбор зависит от задачи, которую вы решаете.




# 2. **Bag of Words (BoW)** — Мешок слов

**Bag of Words (BoW)** — это один из наиболее распространенных методов представления текстовых данных в виде числовых векторов. Суть метода заключается в том, чтобы преобразовать текст в вектор признаков, где каждый признак представляет собой количество вхождений определенного слова (или термина) в документ. Это очень простой и интуитивно понятный метод, который позволяет эффективно анализировать текстовую информацию.

### 2.1 Основные принципы

- В **Bag of Words** каждый документ в корпусе преобразуется в вектор фиксированной длины.
- Длина вектора равна размеру словаря, то есть количеству уникальных слов в корпусе.
- Каждый элемент вектора указывает на количество раз, которое слово встречается в документе.

#### Пример
Рассмотрим следующий небольшой корпус текстов (документов):

- Документ 1: "cat dog cat"
- Документ 2: "dog mouse"
- Документ 3: "cat mouse dog"

Предположим, что мы создаем словарь всех уникальных слов из этого корпуса:

**Словарь**: {`cat`, `dog`, `mouse`}

Теперь мы преобразуем каждый документ в вектор, который будет отражать количество вхождений каждого слова из словаря:

- **Документ 1**: "cat dog cat" → Вектор: [2, 1, 0] (2 раза встречается "cat", 1 раз — "dog", 0 раз — "mouse")
- **Документ 2**: "dog mouse" → Вектор: [0, 1, 1] (0 раз встречается "cat", 1 раз — "dog", 1 раз — "mouse")
- **Документ 3**: "cat mouse dog" → Вектор: [1, 1, 1] (1 раз встречается "cat", 1 раз — "dog", 1 раз — "mouse")

Таким образом, у нас получаются следующие векторы для каждого документа:

- **Документ 1**: [2, 1, 0]
- **Документ 2**: [0, 1, 1]
- **Документ 3**: [1, 1, 1]

### 2.2 Математическое описание

Пусть у нас есть набор документов $D = \{d_1, d_2, \dots, d_m\}$, и словарь, содержащий $V$ уникальных слов: $\{w_1, w_2, \dots, w_V\}$. Каждый документ $d_i$ можно представить как вектор длины $V$, где элемент $v_{ij}$ — это количество вхождений слова $w_j$ в документ $d_i$.

Формально, представление документа $d_i$ в модели **Bag of Words**:

$$
\vec{d_i} = [ \text{count}(w_1, d_i), \text{count}(w_2, d_i), \dots, \text{count}(w_V, d_i)]
$$
где $\text{count}(w_j, d_i)$ — это количество вхождений слова $w_j$ в документ $d_i$.

Пример:
- Документ 1: "cat dog cat" → Вектор: [2, 1, 0]
- Документ 2: "dog mouse" → Вектор: [0, 1, 1]
- Документ 3: "cat mouse dog" → Вектор: [1, 1, 1]

Здесь:
- $\text{count}(cat, d_1) = 2$
- $\text{count}(dog, d_1) = 1$
- $\text{count}(mouse, d_1) = 0$

### 2.3 Преобразование в матрицу

Множество документов $D$ можно преобразовать в **матрицу признаков**, где строки будут представлять документы, а столбцы — слова из словаря. Каждая ячейка в этой матрице будет содержать количество вхождений слова в соответствующий документ.

Для нашего примера:

| Документ / Слово | cat | dog | mouse |
|------------------|-----|-----|-------|
| Документ 1       | 2   | 1   | 0     |
| Документ 2       | 0   | 1   | 1     |
| Документ 3       | 1   | 1   | 1     |

Матрица признаков для трех документов будет выглядеть так:

$$
\begin{pmatrix}
2 & 1 & 0 \\
0 & 1 & 1 \\
1 & 1 & 1 \\
\end{pmatrix}
$$

Каждая строка этой матрицы — это вектор, представляющий соответствующий документ в модели **Bag of Words**.




Для реализации модели **Bag of Words (BoW)** на Python, можно воспользоваться стандартными инструментами, такими как библиотеки `CountVectorizer` из `scikit-learn` или вручную реализовать функцию для подсчета слов. Давайте рассмотрим оба варианта.

### Вариант 1: Использование библиотеки `scikit-learn`

`scikit-learn` предоставляет готовое решение для преобразования текста в векторную форму с помощью метода **CountVectorizer**. Это наиболее удобный способ, который автоматически создает словарь и преобразует документы в матрицу признаков.

Пример реализации:



In [4]:
from sklearn.feature_extraction.text import CountVectorizer

# Список документов
documents = [
    "cat dog cat",
    "dog mouse",
    "cat mouse dog"
]

# Инициализация CountVectorizer
vectorizer = CountVectorizer()

# Преобразование документов в матрицу признаков
X = vectorizer.fit_transform(documents)

# Печать вектора признаков для каждого документа
print("Матрица признаков:")
print(X.toarray())

# Печать словаря (связанного списка слов с индексами)
print("\nСловарь (индексы слов):")
print(vectorizer.vocabulary_)

Матрица признаков:
[[2 1 0]
 [0 1 1]
 [1 1 1]]

Словарь (индексы слов):
{'cat': 0, 'dog': 1, 'mouse': 2}




### Пояснение:
1. **CountVectorizer** автоматически создает словарь из уникальных слов в корпусе и создает матрицу признаков, где каждый документ представлен вектором, указывающим на количество вхождений слов.
2. Метод `fit_transform` обучает модель на корпусе и преобразует документы в числовое представление.
3. `X.toarray()` возвращает матрицу признаков в виде массива.



### Вариант 2: Реализация вручную

Если вы хотите реализовать модель вручную, можно создать словарь и подсчитывать вхождения слов в каждый документ. Пример:



In [5]:
from collections import Counter

# Список документов
documents = [
    "cat dog cat",
    "dog mouse",
    "cat mouse dog"
]

# Создание словаря всех уникальных слов
vocabulary = sorted(set(" ".join(documents).split()))

# Функция для преобразования документа в вектор признаков
def text_to_vector(text, vocabulary):
    words = text.split()
    word_count = Counter(words)
    return [word_count.get(word, 0) for word in vocabulary]

# Преобразование каждого документа в вектор
vectors = [text_to_vector(doc, vocabulary) for doc in documents]

# Вывод результата
print("Матрица признаков:")
for vec in vectors:
    print(vec)

print("\nСловарь (индексы слов):")
for idx, word in enumerate(vocabulary):
    print(f"{word}: {idx}")

Матрица признаков:
[2, 1, 0]
[0, 1, 1]
[1, 1, 1]

Словарь (индексы слов):
cat: 0
dog: 1
mouse: 2





### Пояснение:
1. Мы создаем словарь, который состоит из всех уникальных слов в корпусе.
2. Для каждого документа вычисляется вектор признаков, где каждый элемент — это количество вхождений соответствующего слова из словаря в данный документ.
3. Используется класс `Counter` для подсчета вхождений слов.


### Объяснение работы:
- Для каждого документа создается вектор, где количество вхождений каждого слова из словаря отражается в соответствующем элементе вектора.
- Словарь представляет собой набор уникальных слов из всех документов, и его размер определяет длину вектора признаков для каждого документа.

Таким, образом оба подхода — с использованием библиотеки `scikit-learn` и вручную — являются рабочими и эффективными. В большинстве случаев использование `CountVectorizer` предпочтительнее, так как это позволяет избежать лишних операций и упрощает код, но для учебных целей и понимания работы модели BoW, вручную реализованный вариант может быть полезен.




### 2.4 Вариации модели Bag of Words

## TF-IDF

### 2.4.1. Учитывание частоты слов (Term Frequency — TF)

Модель **Bag of Words (BoW)** в своей классической форме учитывает только количество вхождений слов в документы. Однако эта модель не принимает во внимание длину документа, что может привести к тому, что длинные документы будут иметь большее количество слов, что в свою очередь приводит к преобладанию часто встречающихся слов, не обращая внимания на их значимость. Для решения этой проблемы используется **Term Frequency (TF)**, который нормализует количество вхождений каждого слова в документе, что позволяет избежать искажения, связанного с длиной документа.

**Формула для Term Frequency (TF):**

$$
\text{TF}(w, d) = \frac{\text{count}(w, d)}{\sum_{w' \in d} \text{count}(w', d)}
$$

где:
- $\text{count}(w, d)$ — это количество вхождений слова $w$ в документ $d$,
- $\sum_{w' \in d} \text{count}(w', d)$ — сумма всех частот слов в документе $d$.

Таким образом, **TF** нормализует количество вхождений слов, превращая его в отношение, что позволяет избежать преобладания длинных документов. Значение **TF** показывает, насколько часто слово $w$ встречается в документе $d$ по сравнению с общим числом слов в этом документе.

### 2.4.2. Учитывание важности слов (TF-IDF)

**TF-IDF (Term Frequency-Inverse Document Frequency)** — это мера, которая используется для оценки важности термина $w$ в контексте всего корпуса документов. Этот метод основывается на предположении, что слова, которые часто встречаются в одном документе, но редко встречаются в других, имеют более высокую значимость для этого документа. Например, если слово встречается в большинстве документов, то оно может быть общим и не иметь значимой информации для выделенного документа. Напротив, если слово встречается только в нескольких документах, это может свидетельствовать о том, что оно важно для понимания содержания конкретного документа.

**Формула для TF-IDF:**

$$
\text{TF-IDF}(w, d) = \text{TF}(w, d) \times \text{IDF}(w)
$$

где:
- **TF** — это **Term Frequency**, который мы уже вычислили на предыдущем шаге,
- **IDF** — это **Inverse Document Frequency**, мера, которая показывает, насколько слово важно в контексте всего корпуса документов.

**Формула для IDF:**

$$
\text{IDF}(w) = \log \left( \frac{N}{1 + |\{d \in D : w \in d\}|} \right)
$$

где:
- $N$ — общее количество документов в корпусе $D$,
- $|\{d \in D : w \in d\}|$ — количество документов, в которых встречается слово $w$.

### 2.4.3. Принцип работы TF-IDF

- **TF** отражает частоту появления слова в документе. Чем чаще слово встречается в документе, тем более важным оно является для этого документа.
- **IDF** дает более высокие значения для слов, которые встречаются в меньшем числе документов (то есть они более специфичны для конкретных документов), и низкие значения для слов, которые часто встречаются в разных документах (что делает их менее значимыми для каждого отдельного документа).

Когда мы умножаем **TF** и **IDF**, мы получаем значение, которое позволяет учесть как частоту слова в документе, так и его распространенность по всему корпусу. Это позволяет выделить важные термины, которые являются специфичными для конкретного документа.



## 2.5. Применение TF-IDF в реальных задачах

### 2.5.1. Пример 1: Поисковая система

Представим, что пользователь вводит запрос в поисковую систему, например, "купить автомобиль". Система должна найти документы, которые максимально релевантны этому запросу. В процессе поиска она будет вычислять TF-IDF для каждого слова в документах и в запросе, чтобы вернуть наиболее релевантные результаты.

1. Для каждого документа вычисляется TF для слов в запросе.
2. Вычисляется IDF для каждого слова в запросе по всему корпусу.
3. Далее вычисляется TF-IDF для каждого слова, и на основе этих значений система определяет наиболее важные документы.

### 2.5.2. Пример 2: Классификация текстов

Предположим, у нас есть набор текстов, относящихся к нескольким категориям, например, новости, спорт, технологии. Для классификации текстов можно вычислить TF-IDF для каждого термина в документе и использовать полученные значения в качестве признаков для машинного обучения. Это позволит классификатору различать тексты по их тематике.

### 2.5.3. Пример 3: Кластеризация документов

При кластеризации текстов можно использовать метрику TF-IDF для измерения схожести между документами. Схожие документы, как правило, будут иметь схожие значения TF-IDF для ключевых слов. Алгоритм кластеризации, такой как K-means, будет использовать эти значения для группировки документов в кластеры по схожести тем.



Таким образом, **TF-IDF** — это основополагающая метрика в области обработки текстов, которая помогает решать важные задачи, такие как информационный поиск, классификация, извлечение информации и кластеризация. Несмотря на свои ограничения, TF-IDF остается одним из самых эффективных методов для анализа и обработки текстов.

Важным аспектом является правильное использование TF-IDF в контексте задачи и корпуса данных, а также возможность сочетания его с другими методами, такими как модели на основе нейронных сетей, для получения более точных и глубоких результатов.




Давайте рассмотрим конкретные примеры использования **TF** и **TF-IDF** с вычислениями для лучшего понимания.



## Пример 1: Расчет TF и TF-IDF

Предположим, у нас есть следующий корпус из трех документов:

1. Документ 1: "машина едет по дороге"
2. Документ 2: "машина стоит на дороге"
3. Документ 3: "дорога в городе"

Наши задачи:
1. Рассчитать **TF** (Term Frequency) для слова "машина" в каждом документе.
2. Рассчитать **IDF** (Inverse Document Frequency) для слова "машина" по всем трем документам.
3. Рассчитать **TF-IDF** для слова "машина" в каждом документе.

### 1. Расчет TF (Term Frequency)

**TF** показывает, как часто слово встречается в конкретном документе, относительно общего числа слов в этом документе. Формула:

$$
\text{TF}(w, d) = \frac{\text{count}(w, d)}{\sum_{w' \in d} \text{count}(w', d)}
$$

где:
- $\text{count}(w, d)$ — это количество вхождений слова $w$ в документ $d$,
- $\sum_{w' \in d} \text{count}(w', d)$ — общее количество слов в документе $d$.

Рассчитаем **TF** для слова "машина" в каждом документе.

#### Документ 1: "машина едет по дороге"
- Количество слов: 4
- Количество вхождений "машина": 1
$$
\text{TF}(\text{"машина"}, \text{Документ 1}) = \frac{1}{4} = 0.25
$$

#### Документ 2: "машина стоит на дороге"
- Количество слов: 4
- Количество вхождений "машина": 1
$$
\text{TF}(\text{"машина"}, \text{Документ 2}) = \frac{1}{4} = 0.25
$$

#### Документ 3: "дорога в городе"
- Количество слов: 3
- Количество вхождений "машина": 0
$$
\text{TF}(\text{"машина"}, \text{Документ 3}) = \frac{0}{3} = 0
$$

Итак, мы получили следующие значения TF для слова "машина":
- **Документ 1**: 0.25
- **Документ 2**: 0.25
- **Документ 3**: 0

### 2. Расчет IDF (Inverse Document Frequency)

**IDF** показывает, как важно слово в контексте всего корпуса. Чем реже слово встречается в документах, тем выше его значимость для документа. Формула для **IDF**:

$$
\text{IDF}(w) = \log \left( \frac{N}{1 + |\{d \in D : w \in d\}|} \right)
$$

где:
- $N$ — общее количество документов в корпусе,
- $|\{d \in D : w \in d\}|$ — количество документов, в которых встречается слово $w$.

В нашем примере $N = 3$, и слово "машина" встречается в двух документах (Документ 1 и Документ 2).

$$
\text{IDF}(\text{"машина"}) = \log \left( \frac{3}{1 + 2} \right) = \log \left( \frac{3}{3} \right) = \log(1) = 0
$$

Так как слово "машина" встречается в двух документах, IDF для него равен 0. Это означает, что слово распространено в корпусе и не имеет высокой специфичности для отдельных документов.

### 3. Расчет TF-IDF

Теперь мы можем рассчитать **TF-IDF** для слова "машина" в каждом документе. Формула:

$$
\text{TF-IDF}(w, d) = \text{TF}(w, d) \times \text{IDF}(w)
$$

Рассчитаем **TF-IDF** для слова "машина" в каждом документе:

- **Документ 1**: $\text{TF-IDF}(\text{"машина"}, \text{Документ 1}) = 0.25 \times 0 = 0$
- **Документ 2**: $\text{TF-IDF}(\text{"машина"}, \text{Документ 2}) = 0.25 \times 0 = 0$
- **Документ 3**: $\text{TF-IDF}(\text{"машина"}, \text{Документ 3}) = 0 \times 0 = 0$

Таким образом, для всех документов значение **TF-IDF** для слова "машина" равно 0, потому что IDF равно 0. Это показывает, что слово "машина" является слишком распространенным в данном корпусе, чтобы быть значимым для конкретных документов.



## Пример 2: Влияние редких слов на TF-IDF

Теперь давайте рассмотрим слово "город", которое встречается только в одном документе, и повторим расчеты.

### 1. Расчет TF для слова "город"

- **Документ 1**: слово "город" не встречается, TF = 0.
- **Документ 2**: слово "город" не встречается, TF = 0.
- **Документ 3**: слово "город" встречается один раз, и общее количество слов в документе равно 3:
  $$
  \text{TF}(\text{"город"}, \text{Документ 3}) = \frac{1}{3} = 0.33
  $$

### 2. Расчет IDF для слова "город"

Слово "город" встречается только в одном документе, поэтому количество документов, содержащих слово "город", равно 1.

$$
\text{IDF}(\text{"город"}) = \log \left( \frac{3}{1 + 1} \right) = \log \left( \frac{3}{2} \right) \approx 0.176
$$

### 3. Расчет TF-IDF для слова "город"

Теперь рассчитываем **TF-IDF** для слова "город" в документе 3:

$$
\text{TF-IDF}(\text{"город"}, \text{Документ 3}) = 0.33 \times 0.176 \approx 0.058
$$



### Итоговые результаты

| Слово     | Документ 1 (TF) | Документ 2 (TF) | Документ 3 (TF) | IDF   | Документ 1 (TF-IDF) | Документ 2 (TF-IDF) | Документ 3 (TF-IDF) |
|--|--|--|--|-||||
| машина    | 0.25            | 0.25            | 0               | 0     | 0                   | 0                   | 0                   |
| дорога    | 0.25            | 0.25            | 0.33            | 0.176 | 0                   | 0                   | 0.058               |
| город     | 0               | 0               | 0.33            | 0.176 | 0                   | 0                   | 0.058               |

Таким образом, из приведенных примеров видно, что **TF-IDF** помогает выделять важные термины для каждого документа в корпусе. Слова, которые часто встречаются в документах, имеют низкий **IDF**, а слова, которые встречаются реже, имеют более высокое значение **IDF**. Умножение **TF** и **IDF** дает **TF-IDF**, который отражает важность слова для документа в контексте всего корпуса.

Использование TF-IDF с библиотекой scikit-learn


In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Корпус документов
corpus = [
    "машина едет по дороге",
    "машина стоит на дороге",
    "дорога в городе"
]

# Создание объекта TfidfVectorizer
vectorizer = TfidfVectorizer()

# Преобразование корпуса в матрицу TF-IDF
X = vectorizer.fit_transform(corpus)

# Получение векторных представлений (матрица разреженных данных)
print(X.toarray())

# Получение соответствующих слов (терминов)
print(vectorizer.get_feature_names_out())

[[0.         0.         0.42804604 0.5628291  0.42804604 0.
  0.5628291  0.        ]
 [0.         0.         0.42804604 0.         0.42804604 0.5628291
  0.         0.5628291 ]
 [0.70710678 0.70710678 0.         0.         0.         0.
  0.         0.        ]]
['городе' 'дорога' 'дороге' 'едет' 'машина' 'на' 'по' 'стоит']




Пример с лематизации:



In [7]:
!python -m spacy download ru_core_news_sm

import spacy
from sklearn.feature_extraction.text import TfidfVectorizer

# Загрузка модели spaCy для русского языка
nlp = spacy.load('ru_core_news_sm')

# Пример корпуса
corpus = [
    "машина едет по дороге",
    "машина стоит на дороге",
    "дорога в городе"
]

# Функция для лемматизации текста с использованием spaCy
def lemmatize_text(text):
    # Применяем модель spaCy к тексту
    doc = nlp(text)
    # Извлекаем леммы всех слов
    lemmatized_text = ' '.join([token.lemma_ for token in doc])
    return lemmatized_text

# Лемматизация всего корпуса
lemmatized_corpus = [lemmatize_text(text) for text in corpus]

# Создание объекта TfidfVectorizer
vectorizer = TfidfVectorizer()

# Преобразование лемматизированного корпуса в матрицу TF-IDF
X = vectorizer.fit_transform(lemmatized_corpus)

# Получение векторных представлений
tfidf_matrix = X.toarray()

# Получение слов, для которых рассчитан TF-IDF
words = vectorizer.get_feature_names_out()

# Вывод результатов
for word, tfidf_values in zip(words, tfidf_matrix.T):
    print(f"Слово: {word} | Значения TF-IDF: {tfidf_values}")


Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m80.4 MB/s[0m eta [36m0:00:00[0m
Collecting pymorphy3>=1.0.0 (from ru-core-news-sm==3.7.0)
  Downloading pymorphy3-2.0.2-py3-none-any.whl.metadata (1.8 kB)
Collecting dawg-python>=0.7.1 (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl.metadata (7.0 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.2-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Downloading pymorphy3_d





#Word2Vec (CBOW и Skip-Gram)

**Цель лекции**: Понимание алгоритмов Word2Vec, включая методы Continuous Bag of Words (CBOW) и Skip-Gram. Мы разберем их принципы, математическую основу, а также их отличия и применение.



### Введение в Word2Vec

**Word2Vec** — это модель представления слов в виде плотных векторных представлений. Эти представления (или эмбеддинги) создаются с помощью нейронных сетей и используют контекст слов для определения их значений. Модель Word2Vec включает два основных алгоритма:

1. **Continuous Bag of Words (CBOW)**
2. **Skip-Gram**

Обе модели могут быть обучены с использованием простого подхода на основе нейронных сетей, где задача — научиться предсказывать слова на основе контекста или наоборот. В результате этого обучения слова, которые часто встречаются в схожем контексте, будут иметь близкие векторные представления.

### 1. Continuous Bag of Words (CBOW)

#### Описание

Метод **Continuous Bag of Words (CBOW)** — это одна из архитектур модели **Word2Vec**, которая обучает нейронную сеть для предсказания центрального слова на основе контекста. Идея заключается в том, чтобы для заданного контекста (нескольких слов вокруг центрального слова) предсказать это центральное слово.

Метод CBOW противоположен модели **Skip-Gram**, где модель предсказывает контекстные слова на основе центрального. В CBOW наоборот — предсказывается центральное слово, исходя из контекстных слов. Таким образом, CBOW — это более "обратный" подход, чем Skip-Gram.

##### Принцип работы CBOW:

1. **Контекст** — это набор слов, окружающих целевое слово. Контекст может быть задан как несколько слов до и после целевого.
   
   Например, для предложения:
   ```
   The cat sat on the mat.
   ```
   Если цель — предсказать центральное слово "sat", то контекстными словами будут "The", "cat", "on", "the", "mat". Таким образом, задача модели CBOW будет предсказать слово "sat" на основе этих контекстных слов.

2. Модель получает векторные представления (эмбеддинги) всех контекстных слов и пытается через нейронную сеть предсказать центральное слово. Как правило, для обучения используется метрика ошибки, минимизируя которую, модель улучшает свои предсказания.

#### Архитектура нейронной сети CBOW

Архитектура модели CBOW включает три основных слоя:

1. **Входной слой**:
   - На вход модели подаются векторные представления каждого контекстного слова. Это означает, что на вход модель получает несколько векторов, которые представляют контекстные слова.
   - Размер контекста можно настроить: например, в модели с контекстом в 2 слова с каждой стороны (t-2, t-1, t+1, t+2) для центрального слова будет 4 контекстных слова.

2. **Скрытый слой**:
   - В скрытом слое контекстные слова обрабатываются вместе. Вместо того чтобы обрабатывать каждый вектор отдельно, обычно их усредняют или суммируют, получая один вектор. Этот вектор затем передается на выходной слой.
   - Усреднение или суммирование позволяет получить представление контекста в виде одного вектора фиксированной размерности.

3. **Выходной слой**:
   - На выходном слое модель должна предсказать целевое слово. Для этого используется слой с softmax-функцией, который возвращает вероятности для каждого слова в словаре. На основе этих вероятностей модель выбирает наиболее вероятное центральное слово.

#### Математическое описание CBOW

1. Пусть:
   - $W \in \mathbb{R}^{V \times D}$ — это матрица эмбеддингов для слов, где $V$ — размер словаря, а $D$ — размерность эмбеддинга (представления слова).
   - $C = \{w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2}\}$ — это контекстные слова для центрального слова $w_t$.

2. Цель модели — минимизировать ошибку предсказания целевого слова $w_t$, используя контекст $C$.

Предположим, что контекстные слова $C$ имеют векторы $\vec{c_1}, \vec{c_2}, \ldots, \vec{c_k}$, где $k$ — это количество контекстных слов. Далее, для каждого контекста предсказывается целевое слово $\hat{w_t}$, которое стремится к реальному целевому слову $w_t$.

Предсказание центрального слова $\hat{w_t}$ для каждого контекста $C$ производится с использованием **softmax** функции. Для этого суммируются или усредняются векторы контекстных слов и затем используется вектор $\vec{v_c}$, который является средним (или суммой) всех контекстных слов:

$$
\vec{v_c} = \frac{1}{k} \sum_{i=1}^k \vec{c_i}
$$

Затем предсказание для центрального слова $\hat{w_t}$ рассчитывается через softmax:

$$
P(w_t | C) = \frac{\exp(\vec{W_t}^T \vec{v_c})}{\sum_{w=1}^{V} \exp(\vec{W_w}^T \vec{v_c})}
$$

где:
- $\vec{W_t}$ — это вектор для целевого слова $w_t$,
- $\vec{v_c}$ — это усредненный вектор контекстных слов,
- Сумма в знаменателе — это нормировка через softmax, которая обеспечивает, что выходной вектор $P(w_t | C)$ будет представлять собой вероятности для всех слов в словаре.

#### Обучение модели CBOW

Во время обучения модель CBOW настраивает свои параметры (эмбеддинги слов) таким образом, чтобы минимизировать ошибку предсказания целевого слова для каждого контекста. Это осуществляется через обратное распространение ошибки и оптимизацию с помощью градиентного спуска.

### Важные особенности CBOW:

- **Скорость обучения**: Модель CBOW, как правило, обучается быстрее, чем модель Skip-Gram, потому что она использует контекст из нескольких слов для предсказания одного целевого слова. Это позволяет более эффективно работать с большими объемами данных.
- **Смещение**: Контекстные слова в модели CBOW не имеют значимой последовательности, что делает эту модель менее чувствительной к порядку слов. В отличие от Skip-Gram, CBOW рассматривает контекст как "мешок слов" (bag of words).
  
#### Применение:

- **Обучение эмбеддингов слов**: CBOW используется для создания векторных представлений слов, которые сохраняют семантические и синтаксические связи между словами. Это может быть полезно для задач обработки естественного языка, таких как классификация текста, поиск информации, машинный перевод и т. д.
  
Модель CBOW, несмотря на свою простоту, является мощным инструментом для создания высококачественных эмбеддингов слов и широко используется в практике машинного обучения для обработки текста.

Давайте рассмотрим пример работы модели **Continuous Bag of Words (CBOW)** с конкретными числами и формулами, чтобы лучше понять, как она работает.

### Пример:
Предположим, у нас есть предложение:

```
The cat sat on the mat.
```

И наша цель — предсказать центральное слово ("sat") на основе контекстных слов. Для этого используем CBOW.

#### 1. Контекст
Если размер окна контекста равен 2, то для центрального слова "sat" контекстными словами будут: **"The", "cat", "on", "the", "mat"**. Таким образом, контекст $C = \{\text{"The"}, \text{"cat"}, \text{"on"}, \text{"the"}, \text{"mat"}\}$.

#### 2. Векторные представления слов
Предположим, что у нас есть эмбеддинги слов размерности 3 (для упрощения примера). Эти векторы могут быть следующими:

| Слово | Вектор (эмбеддинг)       |
|-|--|
| The   | $[1, 0, 0]$            |
| cat   | $[0, 1, 0]$            |
| sat   | $[0, 0, 1]$            |
| on    | $[1, 1, 0]$            |
| the   | $[0, 0, 1]$            |
| mat   | $[1, 0, 1]$            |

Теперь у нас есть векторы для всех слов в контексте.

#### 3. Усреднение векторов контекста
Чтобы получить представление контекста, мы усредняем векторы всех контекстных слов:

Контекст $C$ состоит из 5 слов: "The", "cat", "on", "the", "mat".

Векторы этих слов:
- $\vec{The} = [1, 0, 0]$
- $\vec{cat} = [0, 1, 0]$
- $\vec{on} = [1, 1, 0]$
- $\vec{the} = [0, 0, 1]$
- $\vec{mat} = [1, 0, 1]$

Теперь усредним эти векторы:

$$
\vec{v_c} = \frac{1}{5} \left([1, 0, 0] + [0, 1, 0] + [1, 1, 0] + [0, 0, 1] + [1, 0, 1]\right)
$$

Суммируем векторы:

$$
[1 + 0 + 1 + 0 + 1, 0 + 1 + 1 + 0 + 0, 0 + 0 + 0 + 1 + 1] = [3, 2, 2]
$$

Теперь делим на 5 (количество контекстных слов):

$$
\vec{v_c} = \frac{1}{5} [3, 2, 2] = [0.6, 0.4, 0.4]
$$

#### 4. Вычисление вероятности для целевого слова
Теперь, когда у нас есть вектор контекста $\vec{v_c} = [0.6, 0.4, 0.4]$, мы используем его для предсказания центрального слова. Нам нужно рассчитать вероятности для всех слов в словаре. В словаре у нас есть 6 слов: "The", "cat", "sat", "on", "the", "mat".

Для вычисления вероятности для каждого слова мы используем формулу softmax:

$$
P(w_t | C) = \frac{\exp(\vec{W_t}^T \vec{v_c})}{\sum_{w=1}^{V} \exp(\vec{W_w}^T \vec{v_c})}
$$

Где:
- $\vec{W_t}$ — вектор для целевого слова,
- $\vec{v_c}$ — усреднённый вектор контекста.

Предположим, что у нас есть матрица эмбеддингов для всех слов:

| Слово | Вектор эмбеддинга  |
|-|--|
| The   | $[1, 0, 0]$      |
| cat   | $[0, 1, 0]$      |
| sat   | $[0, 0, 1]$      |
| on    | $[1, 1, 0]$      |
| the   | $[0, 0, 1]$      |
| mat   | $[1, 0, 1]$      |

Рассчитаем $\vec{W_t}^T \vec{v_c}$ для каждого слова. Это скалярное произведение вектора контекста $\vec{v_c} = [0.6, 0.4, 0.4]$ и вектора каждого слова.

1. Для слова "The":
$$
   \vec{W_{\text{The}}}^T \vec{v_c} = [1, 0, 0] \cdot [0.6, 0.4, 0.4] = 1 \times 0.6 + 0 \times 0.4 + 0 \times 0.4 = 0.6
$$

2. Для слова "cat":
$$
   \vec{W_{\text{cat}}}^T \vec{v_c} = [0, 1, 0] \cdot [0.6, 0.4, 0.4] = 0 \times 0.6 + 1 \times 0.4 + 0 \times 0.4 = 0.4
$$

3. Для слова "sat":
$$
   \vec{W_{\text{sat}}}^T \vec{v_c} = [0, 0, 1] \cdot [0.6, 0.4, 0.4] = 0 \times 0.6 + 0 \times 0.4 + 1 \times 0.4 = 0.4
$$

4. Для слова "on":
$$
   \vec{W_{\text{on}}}^T \vec{v_c} = [1, 1, 0] \cdot [0.6, 0.4, 0.4] = 1 \times 0.6 + 1 \times 0.4 + 0 \times 0.4 = 1.0
$$

5. Для слова "the":
$$
   \vec{W_{\text{the}}}^T \vec{v_c} = [0, 0, 1] \cdot [0.6, 0.4, 0.4] = 0 \times 0.6 + 0 \times 0.4 + 1 \times 0.4 = 0.4
$$

6. Для слова "mat":
$$
   \vec{W_{\text{mat}}}^T \vec{v_c} = [1, 0, 1] \cdot [0.6, 0.4, 0.4] = 1 \times 0.6 + 0 \times 0.4 + 1 \times 0.4 = 1.0
$$

Теперь применим softmax для нормализации:

$$
P(w_t | C) = \frac{\exp( \vec{W_t}^T \vec{v_c} )}{\sum_{w=1}^{V} \exp( \vec{W_w}^T \vec{v_c} )}
$$

Нормализуем эти значения, чтобы получить вероятности:

$$
\sum \exp(\vec{W_w}^T \vec{v_c}) = \exp(0.6) + \exp(0.4) + \exp(0.4) + \exp(1.0) + \exp(0.4) + \exp(1.0)
$$

Посчитаем экспоненты и их сумму:

$$
\exp(0.6) \approx 1.822, \quad \exp(0.4) \approx 1.221, \quad \exp(1.0) \approx 2.718
$$
$$
\sum \exp = 1.822 + 1.221 + 1.221 + 2.718 + 1.221 + 2.718 \approx 11.921
$$

Теперь вычислим вероятность для каждого слова:

- Для "The":
$$
  P(\text{The}) = \frac{\exp(0.6)}{11.921} = \frac{1.822}{11.921} \approx 0.153
$$

- Для "cat":
$$
  P(\text{cat}) = \frac{\exp(0.4)}

{11.921} = \frac{1.221}{11.921} \approx 0.102
$$

- Для "sat":
$$
  P(\text{sat}) = \frac{\exp(0.4)}{11.921} = \frac{1.221}{11.921} \approx 0.102
$$

- Для "on":
$$
  P(\text{on}) = \frac{\exp(1.0)}{11.921} = \frac{2.718}{11.921} \approx 0.228
$$

- Для "the":
$$
  P(\text{the}) = \frac{\exp(0.4)}{11.921} = \frac{1.221}{11.921} \approx 0.102
$$

- Для "mat":
$$
  P(\text{mat}) = \frac{\exp(1.0)}{11.921} = \frac{2.718}{11.921} \approx 0.228
$$

#### 5. Выбор слова
После применения softmax, мы получаем вероятности для каждого слова в словаре. Модель выберет слово с наибольшей вероятностью как центральное слово. В этом случае вероятность для "on" и "mat" максимальна (по 0.228), так что модель может выбрать одно из этих слов как центральное.

Таким образом, в реальной задаче CBOW будет предсказывать слово "sat" на основе контекста.

Таким образом, этот пример иллюстрирует, как модель CBOW использует контекстные слова для предсказания центрального слова. Мы рассмотрели, как вычисляются векторы для слов, как они усредняются, и как применяется функция softmax для нормализации и предсказания целевого слова.

Давайте реализуем модель Continuous Bag of Words (CBOW) на Python с использованием простого примера. Мы будем работать с эмбеддингами слов и вычислять вероятности для центрального слова, используя модель CBOW с функцией softmax.


In [8]:
import numpy as np

# Шаг 1: Создание словаря и эмбеддингов слов
vocab = ["The", "cat", "sat", "on", "the", "mat"]
word_to_index = {word: idx for idx, word in enumerate(vocab)}  # Словарь для индексов слов
index_to_word = {idx: word for word, idx in word_to_index.items()}  # Обратный словарь

# Эмбеддинги слов (предположим, что они уже обучены и имеют размерность 3)
embeddings = np.array([
    [1, 0, 0],  # The
    [0, 1, 0],  # cat
    [0, 0, 1],  # sat
    [1, 1, 0],  # on
    [0, 0, 1],  # the
    [1, 0, 1]   # mat
])

# Шаг 2: Контекстные слова для предсказания центрального
context_words = ["The", "cat", "on", "the", "mat"]  # Контекстные слова для центрального слова "sat"
context_indices = [word_to_index[word] for word in context_words]

# Шаг 3: Усреднение векторов контекстных слов
context_vectors = embeddings[context_indices]
context_vector = np.mean(context_vectors, axis=0)
print(f"Вектор контекста: {context_vector}")

# Шаг 4: Вычисление вероятности для каждого слова с помощью softmax
def softmax(x):
    exp_x = np.exp(x - np.max(x))  # Для стабильности вычислений
    return exp_x / np.sum(exp_x)

# Вычисление скалярного произведения для каждого слова в словаре
scores = np.dot(embeddings, context_vector)

# Применение softmax для нормализации
probabilities = softmax(scores)

# Шаг 5: Вывод вероятностей для каждого слова
print("\nВероятности для каждого слова:")
for i, word in enumerate(vocab):
    print(f"{word}: {probabilities[i]:.4f}")

# Шаг 6: Выбор слова с наибольшей вероятностью
predicted_word_index = np.argmax(probabilities)
predicted_word = index_to_word[predicted_word_index]
print(f"\nПредсказанное центральное слово: {predicted_word}")

Вектор контекста: [0.6 0.4 0.4]

Вероятности для каждого слова:
The: 0.1553
cat: 0.1271
sat: 0.1271
on: 0.2317
the: 0.1271
mat: 0.2317

Предсказанное центральное слово: on



Если вы хотите использовать векторное представление слов в модели CBOW для обработки реальных текстов, то на практике для обучения и использования эмбеддингов слов часто применяются готовые библиотеки, такие как Gensim, которая позволяет легко работать с моделями Word2Vec и обучать их на текстах. Векторные представления слов, полученные с помощью таких моделей, можно использовать для задач, подобных CBOW, как в вашем примере.

Вот как можно использовать модель Word2Vec из библиотеки gensim, чтобы получить векторные представления слов и применить их в модели CBOW:


In [9]:
import gensim
from gensim.models import Word2Vec
import numpy as np

# Шаг 1: Подготовим текстовые данные для обучения
# Пример текста, который будет использован для обучения модели
sentences = [
    ["the", "cat", "sat", "on", "the", "mat"],
    ["the", "dog", "sat", "on", "the", "mat"],
    ["the", "cat", "is", "on", "the", "mat"],
    ["the", "dog", "is", "on", "the", "mat"]
]

# Шаг 2: Обучение модели Word2Vec с использованием CBOW
# Параметр sg=0 указывает, что используется модель CBOW (если sg=1, то используется Skip-Gram)
model = Word2Vec(sentences, vector_size=3, window=2, sg=0, min_count=1)

# Шаг 3: Получение векторов слов
# Получим вектор для слова "cat"
cat_vector = model.wv["cat"]
print(f"Вектор для слова 'cat': {cat_vector}")

# Шаг 4: Подсчёт среднего вектора контекста
context_words = ["the", "dog", "sat", "on", "the", "mat"]
context_vectors = [model.wv[word] for word in context_words]
context_vector = np.mean(context_vectors, axis=0)
print(f"Вектор контекста: {context_vector}")

# Шаг 5: Применение softmax для предсказания центрального слова
def softmax(x):
    exp_x = np.exp(x - np.max(x))  # Для стабильности вычислений
    return exp_x / np.sum(exp_x)

# Вычисление скалярного произведения для каждого слова в словаре
scores = np.dot(model.wv.vectors, context_vector)

# Применение softmax для нормализации
probabilities = softmax(scores)

# Шаг 6: Вывод вероятностей для каждого слова
print("\nВероятности для каждого слова:")
for i, word in enumerate(model.wv.index_to_key):
    print(f"{word}: {probabilities[i]:.4f}")

# Шаг 7: Выбор слова с наибольшей вероятностью
predicted_word_index = np.argmax(probabilities)
predicted_word = model.wv.index_to_key[predicted_word_index]
print(f"\nПредсказанное центральное слово: {predicted_word}")

Вектор для слова 'cat': [-0.27617383 -0.3149606   0.24372554]
Вектор контекста: [ 0.04468367  0.05318629 -0.03218791]

Вероятности для каждого слова:
the: 0.1417
mat: 0.1432
on: 0.1470
is: 0.1439
dog: 0.1440
sat: 0.1428
cat: 0.1374

Предсказанное центральное слово: on



## 2. Skip-Gram

#### Описание

Метод **Skip-Gram** является одним из подходов для обучения представлений слов (word embeddings). В модели **Skip-Gram** цель заключается в том, чтобы для каждого центрального слова предсказать его контекстные слова. Это противоположно методу **CBOW (Continuous Bag of Words)**, в котором на основе контекста предсказывается центральное слово.

Например, в предложении:

```
The cat sat on the mat.
```

Если мы выбрали слово **"sat"** как центральное, то контекстными словами будут слова, окружающие его — **"The"**, **"cat"**, **"on"**, **"the"**, **"mat"**.

#### Архитектура нейронной сети Skip-Gram

Архитектура модели **Skip-Gram** включает несколько слоев:

1. **Входной слой**:
   - Векторное представление центрального слова $w_t$, которое преобразуется в вектор $\vec{v_t}$.

2. **Скрытый слой**:
   - Скрытый слой, как правило, представляет собой линейную модель, которая преобразует векторное представление целевого слова в пространство скрытых признаков.

3. **Выходной слой**:
   - С помощью выходного слоя модель предсказывает вероятности для каждого контекстного слова, основываясь на центральном слове.

#### Математическое описание

Предположим, что:
- $w_t$ — это целевое слово (central word).
- $C = \{w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2}\}$ — это контекстные слова, где $t$ — индекс центрального слова, а $C$ — множество слов, находящихся в пределах некоторого контекстного окна вокруг $w_t$.

Цель модели **Skip-Gram** — минимизировать ошибку предсказания контекстных слов $C$ на основе целевого слова $w_t$. Для этого вычисляется вероятность появления каждого контекстного слова $w_{t+k}$ (где $k$ — сдвиг относительно центрального слова) через **softmax** функцию:

$$
P(w_{t+k} | w_t) = \frac{\exp(\vec{W_{t+k}}^T \vec{v_t})}{\sum_{w=1}^{V} \exp(\vec{W_w}^T \vec{v_t})}
$$

где:
- $\vec{v_t}$ — векторное представление целевого слова $w_t$,
- $\vec{W_{t+k}}$ — вектор контекстного слова $w_{t+k}$,
- $V$ — размер словаря (количество уникальных слов в тексте),
- Сумма в знаменателе — это нормировка через softmax, которая гарантирует, что сумма вероятностей по всем словам будет равна 1.

Таким образом, вероятность контекстного слова $w_{t+k}$ зависит от скалярного произведения вектора центрального слова $\vec{v_t}$ с вектором контекстного слова $\vec{W_{t+k}}$.

#### Функция потерь

Для всего набора контекстных слов $C$, функция потерь $L$ вычисляется как сумма логарифмов вероятностей предсказанных контекстных слов:

$$
L = - \sum_{w_{t+k} \in C} \log P(w_{t+k} | w_t)
$$

Задача состоит в минимизации этой функции потерь с помощью методов оптимизации, таких как стохастический градиентный спуск (SGD), чтобы научить модель правильно предсказывать контекстные слова.

### Шаги минимизации функции потерь

#### Шаг 1: Вычисление градиентов

Для минимизации функции потерь необходимо вычислить частные производные (градиенты) функции потерь по отношению к параметрам модели. Эти параметры включают:
- Вектор $\vec{v_t}$ для центрального слова $w_t$,
- Вектор $\vec{W_{t+k}}$ для каждого контекстного слова $w_{t+k}$.

##### Градиент по отношению к вектору центрального слова $\vec{v_t}$:

Для каждого контекстного слова $w_{t+k}$ вычисляется градиент функции потерь по отношению к вектору $\vec{v_t}$:

$$
\frac{\partial L}{\partial \vec{v_t}} = - \sum_{w_{t+k} \in C} \left( 1 - P(w_{t+k} | w_t) \right) \vec{W_{t+k}}
$$

где:
- $1 - P(w_{t+k} | w_t)$ — это ошибка предсказания контекстного слова,
- $\vec{W_{t+k}}$ — вектор контекстного слова $w_{t+k}$.

##### Градиент по отношению к вектору контекстного слова $\vec{W_{t+k}}$:

Градиент функции потерь по отношению к вектору контекстного слова $\vec{W_{t+k}}$ для каждого контекстного слова $w_{t+k}$ вычисляется как:

$$
\frac{\partial L}{\partial \vec{W_{t+k}}} = - \left( 1 - P(w_{t+k} | w_t) \right) \vec{v_t}
$$

где:
- $1 - P(w_{t+k} | w_t)$ — ошибка предсказания контекстного слова,
- $\vec{v_t}$ — вектор целевого слова.

#### Шаг 2: Обновление параметров модели

После вычисления градиентов для параметров $\vec{v_t}$ и $\vec{W_{t+k}}$ модель обновляет эти параметры с использованием стохастического градиентного спуска (SGD) или его модификаций.

Для обновления вектора $\vec{v_t}$ используется правило:

$$
\vec{v_t} = \vec{v_t} - \eta \frac{\partial L}{\partial \vec{v_t}}
$$

Для обновления вектора $\vec{W_{t+k}}$ используется правило:

$$
\vec{W_{t+k}} = \vec{W_{t+k}} - \eta \frac{\partial L}{\partial \vec{W_{t+k}}}
$$

где:
- $\eta$ — коэффициент обучения (learning rate), который контролирует шаг обновления.

#### Шаг 3: Повторение процесса

Этот процесс повторяется для всех обучающих примеров в наборе данных:
1. Для каждого центрального слова $w_t$ в контексте вычисляются вероятности контекстных слов с помощью модели.
2. На основе этих вероятностей вычисляются ошибки предсказания.
3. Затем обновляются параметры модели (вектора слов).

#### Шаг 4: Использование отрицательных выборок (Negative Sampling)

Для ускорения обучения на больших словарях и объемных данных применяется метод **отрицательной выборки (Negative Sampling)**. Вместо того чтобы обновлять параметры для всех слов в словаре, обновляются только параметры для целевого и нескольких случайно выбранных контекстных слов (положительных примеров) и их случайных отрицательных примеров. Это значительно снижает вычислительные затраты.

### Различия между CBOW и Skip-Gram

| **Особенность**        | **CBOW (Continuous Bag of Words)**         | **Skip-Gram**                    |
||-|-|
| **Цель**               | Предсказать центральное слово на основе контекста | Предсказать контекстные слова на основе центрального слова |
| **Вход**               | Контекстные слова (около центрального слова) | Центральное слово               |
| **Выход**              | Центральное слово                        | Контекстные слова                |
| **Подходит для**       | Часто встречающихся слов                 | Редких слов                      |
| **Процесс обучения**   | Быстрее для больших объемов данных, поскольку предсказание одного слова связано с множеством контекстов | Может требовать больше времени для редких слов, поскольку для каждого целевого слова нужно предсказать несколько контекстных слов |
| **Применение**         | Подходит для задач, где важен контекст для предсказания центрального слова (например, в задачах классификации) | Подходит для задач, где необходимо лучше учитывать редкие слова или для предсказания векторов для каждого слова в контексте |

Таким образом, метод **Skip-Gram** эффективен для работы с редкими словами, так как модель учится предсказывать контекстные слова, используя центральное слово. Это позволяет улучшить качество векторных представлений для таких слов. В отличие от **CBOW**, метод **Skip-Gram** более затратен по времени, но дает лучшие результаты для редких слов.



### Пример с расчетами для Skip-Gram

#### 1. Заданные данные:

Предположим, у нас есть текст:

```
The cat sat on the mat.
```

Мы будем использовать **Skip-Gram** для предсказания контекстных слов для центрального слова **"sat"**.

- Центральное слово: **"sat"**.
- Контекстные слова: **"The"**, **"cat"**, **"on"**, **"the"**, **"mat"**. (Контекстное окно размера 2, т.е. два слова слева и два справа от центрального).

### 2. Векторные представления слов (word embeddings)

Предположим, что векторные представления слов ($\vec{v_t}$ и $\vec{W}$) — это 3-мерные векторы. Пусть наши вектора слов следующие:

- $\vec{v_{\text{sat}}} = [0.5, 0.1, 0.4]$
- $\vec{W_{\text{The}}} = [0.3, 0.2, 0.1]$
- $\vec{W_{\text{cat}}} = [0.4, 0.5, 0.2]$
- $\vec{W_{\text{on}}} = [0.6, 0.1, 0.3]$
- $\vec{W_{\text{mat}}} = [0.2, 0.3, 0.7]$

Здесь $\vec{v_{\text{sat}}}$ — это вектор для центрального слова **"sat"**, а $\vec{W_{\text{*}}}$ — это векторы для контекстных слов. Мы будем использовать эти данные для расчета функции потерь и градиентов.

### 3. Расчет вероятностей контекстных слов с помощью softmax

Для вычисления вероятности появления контекстных слов, основываясь на центральном слове, используем **softmax**. Для этого сначала вычислим скалярные произведения векторов центрального и контекстных слов:

#### Для контекстного слова "The":

$$
\vec{v_{\text{sat}}}^T \vec{W_{\text{The}}} = (0.5 \times 0.3) + (0.1 \times 0.2) + (0.4 \times 0.1) = 0.15 + 0.02 + 0.04 = 0.21
$$

#### Для контекстного слова "cat":

$$
\vec{v_{\text{sat}}}^T \vec{W_{\text{cat}}} = (0.5 \times 0.4) + (0.1 \times 0.5) + (0.4 \times 0.2) = 0.20 + 0.05 + 0.08 = 0.33
$$

#### Для контекстного слова "on":

$$
\vec{v_{\text{sat}}}^T \vec{W_{\text{on}}} = (0.5 \times 0.6) + (0.1 \times 0.1) + (0.4 \times 0.3) = 0.30 + 0.01 + 0.12 = 0.43
$$

#### Для контекстного слова "mat":

$$
\vec{v_{\text{sat}}}^T \vec{W_{\text{mat}}} = (0.5 \times 0.2) + (0.1 \times 0.3) + (0.4 \times 0.7) = 0.10 + 0.03 + 0.28 = 0.41
$$

Теперь применим **softmax** для этих значений, чтобы получить вероятности для каждого контекстного слова. Формула **softmax** для каждого контекстного слова $w_{t+k}$ выглядит так:

$$
P(w_{t+k} | w_t) = \frac{\exp(\vec{v_t}^T \vec{W_{t+k}})}{\sum_{w=1}^{V} \exp(\vec{v_t}^T \vec{W_w})}
$$

Для начала, найдем сумму экспонент:

$$
\sum_{w=1}^{V} \exp(\vec{v_t}^T \vec{W_w}) = \exp(0.21) + \exp(0.33) + \exp(0.43) + \exp(0.41)
$$
$$
= 1.233 + 1.393 + 1.537 + 1.509 = 5.672
$$

Теперь вычислим вероятности для каждого контекстного слова:

#### Для "The":

$$
P(\text{The} | \text{sat}) = \frac{\exp(0.21)}{5.672} = \frac{1.233}{5.672} = 0.217
$$

#### Для "cat":

$$
P(\text{cat} | \text{sat}) = \frac{\exp(0.33)}{5.672} = \frac{1.393}{5.672} = 0.246
$$

#### Для "on":

$$
P(\text{on} | \text{sat}) = \frac{\exp(0.43)}{5.672} = \frac{1.537}{5.672} = 0.271
$$

#### Для "mat":

$$
P(\text{mat} | \text{sat}) = \frac{\exp(0.41)}{5.672} = \frac{1.509}{5.672} = 0.266
$$

### 4. Функция потерь

Теперь, используя вычисленные вероятности, можем вычислить функцию потерь для всей выборки контекстных слов. Функция потерь $L$ для модели **Skip-Gram** выражается как сумма логарифмов вероятностей предсказанных контекстных слов:

$$
L = - \sum_{w_{t+k} \in C} \log P(w_{t+k} | w_t)
$$

Поскольку в нашем контексте $C = \{\text{The}, \text{cat}, \text{on}, \text{mat}\}$, получаем:

$$
L = - [\log(0.217) + \log(0.246) + \log(0.271) + \log(0.266)]
$$
$$
L = - [-1.516 - 1.406 - 1.308 - 1.322]
$$
$$
L = 5.552
$$

Таким образом, функция потерь для данной выборки равна **5.552**.

### 5. Обновление параметров модели

Теперь, чтобы минимизировать функцию потерь, можно использовать метод стохастического градиентного спуска (SGD) для обновления векторов слов. Сначала вычислим градиенты функции потерь по параметрам модели. Градиенты будут вычисляться для каждого контекстного слова, используя производные функции потерь по отношению к вектору целевого слова и вектору контекстного слова.

#### Градиенты для векторов:

Для каждого контекстного слова $w_{t+k}$, обновление параметров можно выразить следующим образом:

$$
\frac{\partial L}{\partial \vec{v_t}} = - \sum_{w_{t+k} \in C} \left( \frac{1}{P(w_{t+k} | w_t)} \cdot \vec{W_{t+k}} \right)
$$

$$
\frac{\partial L}{\partial \vec{W_{t+k}}} = - \frac{1}{P(w_{t+k} | w_t)} \cdot \vec{v_t}
$$

Эти градиенты можно использовать для обновления параметров с помощью шага обучения $\eta$:

$$
\vec{v_t} \leftarrow \vec{v_t} - \eta \frac{\partial L}{\partial \vec{v_t}}
$$

$$
\vec{W_{t+k}} \leftarrow \vec{W_{t+k}} - \eta \frac{\partial L}{\partial \vec{W_{t+k}}}
$$

Таким образом, мы рассмотрели полный процесс работы метода **Skip-Gram**:

1. Расчет вероятностей контекстных слов с помощью **softmax**,
2. Вычисление функции потерь,
3. Применение стохастического градиентного спуска для обновления параметров модели.

Этот процесс позволяет обучать модели для создания качественных векторных представлений слов, которые могут быть использованы в различных задачах обработки естественного языка.



Ниже приведен пример реализации модели Skip-Gram на Python, включая вычисления для softmax, функции потерь и обновления параметров с использованием стохастического градиентного спуска (SGD).

Реализация модели Skip-Gram на Python


In [22]:
import numpy as np

# 1. Заданные данные

# Центральное слово: "sat"
# Контекстные слова: "The", "cat", "on", "the", "mat"
context_words = ["The", "cat", "on", "The", "mat"]  # Ensure consistency with capitalization

# Векторные представления слов
v_sat = np.array([0.5, 0.1, 0.4])  # Вектор центрального слова "sat"
W_the = np.array([0.3, 0.2, 0.1])
W_cat = np.array([0.4, 0.5, 0.2])
W_on = np.array([0.6, 0.1, 0.3])
W_mat = np.array([0.2, 0.3, 0.7])

# Контекстные слова в виде векторов
word_vectors = {
    "The": W_the,
    "cat": W_cat,
    "on": W_on,
    "mat": W_mat
}

# 2. Функция softmax
def softmax(scores):
    exp_scores = np.exp(scores - np.max(scores))  # Numerical stability fix
    return exp_scores / np.sum(exp_scores)

# 3. Функция потерь
def compute_loss(probabilities, context_words):
    # Логарифмическая функция потерь
    loss = -sum(np.log(probabilities[word]) for word in context_words)
    return loss

# 4. Градиенты для обновления параметров
def compute_gradients(v_t, word_vectors, probabilities, context_words):
    grad_v_t = np.zeros_like(v_t)  # Градиент для вектора центрального слова
    grad_word_vectors = {word: np.zeros_like(word_vectors[word]) for word in word_vectors}  # Градиенты для векторов контекстных слов

    for word in context_words:
        grad_factor = 1 / probabilities[word]  # Множитель градиента
        grad_v_t -= grad_factor * word_vectors[word]
        grad_word_vectors[word] -= grad_factor * v_t

    return grad_v_t, grad_word_vectors

# 5. Обновление параметров с использованием SGD
def update_parameters(v_t, word_vectors, grad_v_t, grad_word_vectors, learning_rate=0.1):
    v_t -= learning_rate * grad_v_t
    for word in word_vectors:
        word_vectors[word] -= learning_rate * grad_word_vectors[word]

    return v_t, word_vectors

# 6. Пример шага обучения

# Скалярные произведения центрального слова с контекстными словами
scores = {word: np.dot(v_sat, word_vectors[word]) for word in context_words}

# Применяем softmax и сохраняем результаты в словарь
softmax_probs = softmax(list(scores.values()))
probabilities = {word: prob for word, prob in zip(context_words, softmax_probs)}

# Вычисляем функцию потерь
loss = compute_loss(probabilities, context_words)
print("Initial loss:", loss)

# Вычисляем градиенты
grad_v_t, grad_word_vectors = compute_gradients(v_sat, word_vectors, probabilities, context_words)

# Обновляем параметры с помощью SGD
v_sat, word_vectors = update_parameters(v_sat, word_vectors, grad_v_t, grad_word_vectors)

# Выводим новые значения
print("\nUpdated central word vector (v_sat):", v_sat)
for word, vec in word_vectors.items():
    print(f"Updated vector for '{word}':", vec)

KeyError: 'mat'


Для реализации модели Skip-Gram с использованием готовых библиотек в Python, можно воспользоваться такими популярными инструментами, как Gensim или PyTorch. В данном случае мы сосредоточимся на библиотеке Gensim, которая является одним из самых популярных инструментов для обучения векторных представлений слов (word embeddings).

Реализация модели Skip-Gram с использованием Gensim

In [23]:
import gensim
from gensim.models import Word2Vec
import logging

# Включаем логирование для отслеживания процесса обучения модели
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# Подготовим данные (массив слов из текста)
sentences = [
    ["the", "cat", "sat", "on", "the", "mat"]
]

# Обучаем модель Skip-Gram
# С параметром sg=1 мы указываем, что используем модель Skip-Gram (если sg=0, используется CBOW)
model = Word2Vec(sentences, vector_size=3, window=2, sg=1, min_count=1)

# Проверим, как выглядит вектор для слова "sat"
vector_sat = model.wv["sat"]
print("Vector for 'sat':", vector_sat)

# Теперь мы можем найти наиболее похожие слова для центрального слова "sat"
similar_words = model.wv.most_similar("sat", topn=3)
print("Most similar words to 'sat':", similar_words)

# Сохраним модель
model.save("skipgram_model.model")

# Загрузим модель (если нужно)
# model = Word2Vec.load("skipgram_model.model")

Vector for 'sat': [-0.12544572  0.24601682 -0.05111571]
Most similar words to 'sat': [('cat', 0.9267787337303162), ('on', 0.4850040376186371), ('the', -0.09387321770191193)]


### Оптимизация и обучение моделей Word2Vec (CBOW и Skip-Gram)

Для эффективного обучения моделей **CBOW (Continuous Bag of Words)** и **Skip-Gram** часто применяются методы, позволяющие значительно ускорить вычисления и снизить вычислительные затраты. Одними из таких методов являются **Negative Sampling** и **Hierarchical Softmax**. Эти методы решают проблему вычислительной сложности, связанной с необходимостью вычислять вероятности для всех слов из словаря, что может быть чрезвычайно ресурсоемким, особенно для больших словарей.

#### Negative Sampling

**Negative Sampling** — это метод, который используется для ускорения обучения моделей Word2Vec, особенно в контексте Skip-Gram модели. Вместо того чтобы вычислять вероятность всех слов в словаре через прямой softmax (что требует обработки огромного числа слов), этот метод фокусируется на выборке только нескольких слов для обновления весов модели. Суть метода заключается в следующем:

1. **Основная идея**: Вместо того, чтобы рассчитывать вероятность для каждого слова в словаре, изначально выбираются несколько случайных слов, которые не связаны с текущим контекстом (так называемые "отрицательные" примеры).
   
2. **Процесс**:
    - Для каждого положительного примера (слово из контекста), выбираются несколько отрицательных слов, которые не имеют отношения к текущему контексту.
    - Модель учится различать положительные примеры (слова, которые реально встречаются в контексте) и отрицательные (слова, случайным образом выбранные из словаря).
    - Обучение сводится к задаче бинарной классификации для каждой пары (контекст, слово). Это значительно снижает вычислительные затраты, так как требуется обновить параметры только для небольшой части слов из словаря, а не для всего словаря.

3. **Преимущества**:
   - **Скорость**: Значительно уменьшается количество операций, поскольку теперь не нужно вычислять полные вероятности для всех слов в словаре. Вместо этого только несколько слов подвергаются изменениям за один шаг.
   - **Эффективность памяти**: Обновляются веса только для небольшого подмножества слов, что позволяет эффективно использовать память, даже при работе с большими словарями.

4. **Алгоритм**:
    - Для каждого целевого слова и контекстных слов в Skip-Gram модели (или наоборот в CBOW) модель предсказывает вероятность появления контекстных слов.
    - Вместо того чтобы вычислять полное распределение вероятностей с помощью softmax, выбирается несколько негативных примеров.
    - Каждое слово представляется в виде вектора, и задача модели — научиться правильно различать контекстные и случайные слова, минимизируя ошибку в предсказаниях.

5. **Проблемы**: Выбор "отрицательных" слов не всегда прост, так как необходимо подобрать такие слова, которые не связаны с контекстом, но в то же время достаточно часто встречаются в языке. Часто используются **удельные вероятности** для выборки отрицательных примеров, что позволяет сбалансировать процесс.

6. **Математика**: Для каждой пары контекстного слова $w_c$ и отрицательного слова $w_n$, задача модели сводится к минимизации функции потерь (например, бинарной кросс-энтропии):
$$
   L = - \log \sigma(v_{w_c} \cdot v_{w_o}) - \sum_{n=1}^{k} \log \sigma(-v_{w_n} \cdot v_{w_o})
$$
   где $\sigma$ — это сигмоидная функция, $v_{w_c}$ и $v_{w_n}$ — это векторные представления слов, $k$ — количество отрицательных примеров.

#### Hierarchical Softmax

**Hierarchical Softmax** — это еще один способ ускорения вычислений, использующий иерархическую структуру для вычисления вероятности. В отличие от прямого softmax, который требует вычисления вероятностей для всех слов в словаре, иерархический softmax использует дерево для представления распределений вероятности. В этом случае задача сводится к вычислению вероятностей вдоль пути от корня дерева до целевого слова.

1. **Структура дерева**: Вместо того чтобы учитывать каждое слово из словаря, все слова представляются в виде дерева. Каждое слово имеет свой путь к корню дерева.
   
2. **Алгоритм**:
   - Для каждого слова вычисляется вероятность путем прохождения от корня дерева к этому слову, вычисляя вероятность на каждом шаге, используя сигмоидную функцию для каждой ветви.
   - Это требует вычисления логарифма вероятностей только для узлов, которые лежат на пути от корня к целевому слову.

3. **Преимущества**:
   - Вместо вычисления вероятности для всех слов из словаря, модель вычисляет вероятность, используя гораздо меньшее количество операций — только $O(\log |V|)$ вычислений для каждого слова (где $|V|$ — размер словаря).
   - Это сильно ускоряет процесс обучения, особенно при работе с большими словарями.

4. **Проблемы**: Несмотря на более низкие затраты времени, этот метод также не всегда подходит для всех типов данных, поскольку производительность зависит от структуры дерева и способа его построения.

#### Сравнение Negative Sampling и Hierarchical Softmax

- **Negative Sampling** лучше подходит, когда модель должна быстро учиться на основе меньшего числа примеров. Он снижает вычислительные затраты, сводя задачу к бинарной классификации для каждого контекста.
- **Hierarchical Softmax** — это более элегантный способ оптимизации, который использует иерархию, но может быть менее интуитивно понятен и труднее настраиваем.

Оба метода имеют свои применения и могут использоваться в зависимости от контекста и особенностей задачи, при этом каждый из них значительно ускоряет обучение моделей Word2Vec, позволяя работать с большими объемами данных без необходимости вычислять полные вероятности для каждого слова.


### Пример оптимизации и обучения моделей Word2Vec с использованием Negative Sampling и Hierarchical Softmax

Предположим, у нас есть текстовый корпус, состоящий из нескольких предложений, и мы хотим обучить модель Word2Vec для получения векторных представлений слов. Рассмотрим два способа оптимизации: **Negative Sampling** и **Hierarchical Softmax**.

#### 1. Исходные данные:
Предположим, что у нас есть небольшой корпус:
```
"кошки и собаки любят гулять"
```

Словарь будет включать только уникальные слова:
```
["кошки", "и", "собаки", "любят", "гулять"]
```
Размер словаря $|V| = 5$.

#### 2. Модель Word2Vec
Для этого примера предположим, что мы обучаем модель **Skip-Gram**. В этой модели цель — предсказать контекстные слова для заданного целевого слова. Например, для целевого слова "собаки" контекстными словами будут "кошки", "и", "любят", "гулять".

##### 2.1. **Negative Sampling**
Вместо того чтобы вычислять вероятность всех слов в словаре с помощью обычного softmax, мы используем **Negative Sampling**. Допустим, мы выбираем 2 отрицательных примера для каждого положительного контекста.

**Шаги обучения с Negative Sampling**:
1. **Положительные примеры**: для целевого слова "собаки" контекстными словами будут "кошки", "и", "любят", "гулять".
2. **Отрицательные примеры**: выбираем случайные слова, не связанные с "собаки" (например, "кошки", "и" — это два случайных слова, которые не относятся к контексту).
3. Мы обучаем модель различать контекстные и случайные слова, минимизируя функцию потерь.

Математически это выглядит так:

Для пары контекстного слова $w_c$ и $k$ отрицательных слов $w_n$:
$$
L = - \log \sigma(v_{w_c} \cdot v_{w_o}) - \sum_{n=1}^{k} \log \sigma(-v_{w_n} \cdot v_{w_o})
$$
где:
- $\sigma$ — это сигмоидная функция.
- $v_{w_c}$, $v_{w_o}$, и $v_{w_n}$ — векторные представления контекстного слова, целевого слова и отрицательных слов соответственно.
- $k$ — количество отрицательных примеров (в нашем случае $k = 2$).

Таким образом, для каждого контекстного слова "собаки" мы обновляем веса только для нескольких выбранных слов, а не для всех 5 слов в словаре, что ускоряет обучение.

##### 2.2. **Hierarchical Softmax**
**Hierarchical Softmax** использует иерархическую структуру для вычисления вероятности. Все слова из словаря представляются как листья в бинарном дереве.

**Шаги обучения с Hierarchical Softmax**:
1. Строим бинарное дерево для словаря. Например, если у нас 5 слов, то дерево может выглядеть следующим образом:
   - Корень дерева имеет два поддерева (например, "кошки" и "собаки").
   - Листья дерева — это сами слова.

2. Для целевого слова "собаки" мы проходим по пути от корня до этого слова, обновляя веса на каждом шаге.

Математически для вычисления вероятности слова $w_o$ при использовании иерархического softmax:
$$
P(w_o) = \prod_{i=1}^{L} \sigma(h_i \cdot v_{w_o})
$$
где:
- $h_i$ — скрытые векторы на пути от корня до слова $w_o$,
- $\sigma$ — сигмоидная функция.

Для каждого слова достаточно пройти по дереву (что требует $O(\log |V|)$ вычислений), что значительно сокращает вычислительные затраты по сравнению с обычным softmax.

#### 3. Сравнение двух методов:
- **Negative Sampling** — использует случайные отрицательные примеры, что позволяет уменьшить количество обновляемых параметров и значительно ускорить обучение. Однако выбор отрицательных примеров может быть сложным.
- **Hierarchical Softmax** — использует иерархию, что снижает количество вычислений для каждого слова. Однако процесс построения и оптимизации дерева может быть сложным.

#### 4. Заключение:
- **Negative Sampling** лучше подходит, если важно быстро обучать модель с небольшим количеством положительных примеров.
- **Hierarchical Softmax** более эффективен при больших словарях, так как количество операций для вычисления вероятности для каждого слова зависит от глубины дерева.

Оба метода значимо ускоряют процесс обучения, позволяя работать с большими объемами данных без вычисления полной вероятности для каждого слова.


Для реализации методов **Negative Sampling** и **Hierarchical Softmax** на Python, мы начнем с реализации простого варианта модели **Skip-Gram** с использованием данных текстов и создадим соответствующие алгоритмы для обоих методов оптимизации.

### Шаг 1: Подготовка данных
Создадим простой корпус текста и подготовим данные для обучения.

```python
import numpy as np
from collections import Counter
import random

# Исходный текстовый корпус
corpus = ["кошки и собаки любят гулять"]

# Токенизация текста
def tokenize(text):
    return text.lower().split()

tokens = tokenize(corpus[0])

# Создание словаря и индексации
word_counts = Counter(tokens)
vocab = list(word_counts.keys())
word_to_index = {word: i for i, word in enumerate(vocab)}
index_to_word = {i: word for i, word in enumerate(vocab)}
vocab_size = len(vocab)

print("Словарь:", vocab)
print("Индексы слов:", word_to_index)
```

### Шаг 2: Реализация модели Skip-Gram с **Negative Sampling**

Мы реализуем функцию для обучения модели **Skip-Gram** с методом **Negative Sampling**. Для этого будем использовать векторные представления слов, которые будем обновлять на основе контекстных слов и отрицательных примеров.

```python
import torch
import torch.nn as nn
import torch.optim as optim

# Параметры модели
embedding_dim = 5  # Размерность векторных представлений
negative_samples = 2  # Количество отрицательных примеров

# Инициализация векторов слов
class SkipGramNegativeSampling(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(SkipGramNegativeSampling, self).__init__()
        self.in_embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.out_embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.in_embeddings.weight.data.uniform_(-0.5, 0.5)
        self.out_embeddings.weight.data.uniform_(-0.5, 0.5)

    def forward(self, target, context, negative_samples):
        target_emb = self.in_embeddings(target)
        context_emb = self.out_embeddings(context)
        negative_emb = self.out_embeddings(negative_samples)
        
        positive_score = torch.sum(target_emb * context_emb, dim=1)
        negative_score = torch.sum(target_emb * negative_emb, dim=2)
        
        positive_loss = torch.sum(torch.log(torch.sigmoid(positive_score)))
        negative_loss = torch.sum(torch.log(torch.sigmoid(-negative_score)), dim=1)
        
        return -(positive_loss + negative_loss)

# Инициализация модели и оптимизатора
model = SkipGramNegativeSampling(vocab_size, embedding_dim)
optimizer = optim.SGD(model.parameters(), lr=0.01)

# Функция для выборки отрицательных примеров
def get_negative_samples(target_idx, num_samples, vocab_size):
    negatives = []
    while len(negatives) < num_samples:
        negative = random.randint(0, vocab_size - 1)
        if negative != target_idx:
            negatives.append(negative)
    return torch.tensor(negatives)

# Обучение модели
epochs = 1000
for epoch in range(epochs):
    total_loss = 0
    for i in range(1, len(tokens) - 1):
        target_word = tokens[i]
        context_words = [tokens[i-1], tokens[i+1]]  # контекстные слова (по одному слева и справа)
        
        target_idx = word_to_index[target_word]
        context_idx = [word_to_index[word] for word in context_words]
        
        # Выборка отрицательных примеров
        negative_samples = get_negative_samples(target_idx, negative_samples, vocab_size)
        
        # Преобразование индексов в тензоры
        target_tensor = torch.tensor([target_idx])
        context_tensor = torch.tensor(context_idx)
        
        # Обратное распространение ошибки
        optimizer.zero_grad()
        loss = model(target_tensor, context_tensor, negative_samples)
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()

    if epoch % 100 == 0:
        print(f"Эпоха {epoch}, Потери: {total_loss}")

# Получение обученных векторов слов
word_vectors = model.in_embeddings.weight.data.numpy()
print("Векторное представление слова 'собаки':", word_vectors[word_to_index["собаки"]])
```

### Шаг 3: Реализация **Hierarchical Softmax**

Теперь мы реализуем метод **Hierarchical Softmax**, который будет использовать бинарное дерево для вычисления вероятности.

```python
class SkipGramHierarchicalSoftmax(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(SkipGramHierarchicalSoftmax, self).__init__()
        self.in_embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.out_embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.in_embeddings.weight.data.uniform_(-0.5, 0.5)
        self.out_embeddings.weight.data.uniform_(-0.5, 0.5)

    def forward(self, target, context, huffman_tree):
        target_emb = self.in_embeddings(target)
        context_emb = self.out_embeddings(context)
        
        # Прохождение по дереву Хаффмана
        path, labels = huffman_tree[target]
        
        loss = 0
        for p, label in zip(path, labels):
            loss += torch.log(torch.sigmoid(torch.sum(target_emb * p * context_emb)))
            loss += torch.log(torch.sigmoid(-torch.sum(target_emb * p * context_emb)))
        return -loss

# Пример инициализации и обучения с использованием Hierarchical Softmax
model_hs = SkipGramHierarchicalSoftmax(vocab_size, embedding_dim)
optimizer_hs = optim.SGD(model_hs.parameters(), lr=0.01)

# Псевдокод для дерева Хаффмана (реальная реализация потребует построения дерева Хаффмана)
# Для простоты будем считать, что дерево уже готово
# (В реальной задаче потребуется построить дерево Хаффмана)
huffman_tree = {word: (path, labels) for word, path, labels in zip(vocab, tree_paths, tree_labels)}

# Обучение модели с иерархическим softmax
for epoch in range(epochs):
    total_loss = 0
    for i in range(1, len(tokens) - 1):
        target_word = tokens[i]
        context_words = [tokens[i-1], tokens[i+1]]
        
        target_idx = word_to_index[target_word]
        context_idx = [word_to_index[word] for word in context_words]
        
        target_tensor = torch.tensor([target_idx])
        context_tensor = torch.tensor(context_idx)
        
        optimizer_hs.zero_grad()
        loss = model_hs(target_tensor, context_tensor, huffman_tree)
        loss.backward()
        optimizer_hs.step()
        
        total_loss += loss.item()

    if epoch % 100 == 0:
        print(f"Эпоха {epoch}, Потери: {total_loss}")
```

Таким образом, в этом примере мы показали, как реализовать **Skip-Gram** с методами **Negative Sampling** и **Hierarchical Softmax** на Python, используя PyTorch. В модели с **Negative Sampling** обучение ускоряется за счет того, что обновляются веса только для небольшого набора слов, а в случае **Hierarchical Softmax** используется бинарное дерево для вычисления вероятностей, что также помогает уменьшить вычислительные затраты.


Для реализации методов Negative Sampling и Hierarchical Softmax с использованием готовых библиотек, мы можем воспользоваться библиотекой Gensim, которая предоставляет мощные инструменты для работы с моделями Word2Vec, включая оптимизации, такие как Negative Sampling и Hierarchical Softmax.




### Преимущества Word2Vec

1. **Эмбеддинги слов**: Модели обучают слова в виде плотных векторов, которые могут быть использованы для многих задач NLP.
2. **Семантические и синтаксические связи**: Слова, которые часто встречаются в схожем контексте, имеют близкие векторные представления.
3. **Эффективность**: Word2Vec может обучаться на больших текстовых корпусах за приемлемое время.

Таким образом, модели Word2Vec (CBOW и Skip-Gram) являются мощным инструментом для создания векторных представлений слов, которые сохраняют контекстную и семантическую информацию. Хотя оба алгоритма используют нейронные сети для обучения, их различия в подходах к обработке контекста и предсказаниям центральных слов делают их полезными для различных типов задач.


#5. "Модель GloVe (Global Vectors for Word Representation)"

### Введение

Модель **GloVe** (Global Vectors for Word Representation) — это алгоритм, предназначенный для обучения векторных представлений слов, который был предложен Стэнфордским университетом в 2014 году (Томми Шмидт, Кристофер Маннинг, и др.). Модель объединяет преимущества двух основных подходов к представлению слов: **контекстуальных моделей** (таких как Word2Vec) и **методов, использующих глобальную статистику** (таких как LSA — Latent Semantic Analysis). GloVe пытается воспользоваться глобальной статистикой корпуса текстов, чтобы понять семантическую близость между словами и представить эти слова в виде плотных векторов.

## Проблема, решаемая GloVe

Модели векторных представлений слов, такие как Word2Vec, пытаются учитывать локальные контексты слов, т.е. то, какие слова чаще всего окружают данное слово в пределах небольших контекстных окон. Однако такие методы не всегда могут захватить более глобальные зависимости между словами, такие как их частотное соотношение на глобальном уровне текста.

Напротив, традиционные методы для выделения смысловых тем (например, LSA) используют матрицы со статистикой по всем парам слов в корпусе, но могут сталкиваться с проблемой "разреженности", когда такая матрица становится слишком большой и неинформативной.

Модель GloVe сочетает в себе оба подхода и пытается найти компромисс: она использует глобальную статистику, но при этом обучает векторы слов с учётом их контекстов, чтобы получить компактные и информативные представления.

## Основная идея модели GloVe

Основной идеей GloVe является использование **коэффициентов совместной вероятности** для формирования векторных представлений слов. В отличие от Word2Vec, который обучает представления слов, минимизируя ошибки предсказания на основе локального контекста, GloVe минимизирует ошибку на основе глобальной статистики — именно коэффициентов совместной вероятности слов в корпусе.

Предположим, у нас есть большой корпус текстов, из которого мы извлекаем совместные вероятности для пар слов. Эти вероятности описывают, насколько часто два слова встречаются вместе в контексте.

Математически:

- Пусть $X_{ij}$ — это количество совместных появлений слов $w_i$ и $w_j$ в корпусе.
- Пусть $P_{ij}$ — это вероятность того, что $w_i$ и $w_j$ появляются в контексте, которая вычисляется как:
  
$$
  P_{ij} = \frac{X_{ij}}{\sum_{j} X_{ij}}
$$

Модель GloVe строит представления слов $\mathbf{v}_i$ и $\mathbf{v}_j$ таким образом, чтобы для каждой пары слов $w_i$ и $w_j$ выполнялось следующее приближение для их совместной вероятности $P_{ij}$:

$$
f(P_{ij}) = \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j
$$

где:
- $f(P_{ij})$ — это функция, которая трансформирует вероятность совместного появления слов в некую величину, которая соответствует логарифму вероятности или её приближению.
- $\mathbf{v}_i$ и $\mathbf{v}_j$ — векторные представления слов $w_i$ и $w_j$.
- $b_i$ и $b_j$ — это смещения (bias), связанные с каждым словом.

Модель минимизирует ошибку на всех возможных парах слов в корпусе, используя следующую целевую функцию:

$$
J = \sum_{i,j=1}^V f(P_{ij}) \left( \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j - \log(P_{ij}) \right)^2
$$

Здесь:
- $V$ — размер словаря.
- $P_{ij}$ — вероятность совместного появления слов $w_i$ и $w_j$, которую можно вычислить из статистики корпуса.

Функция $f(P_{ij})$ обычно используется для сглаживания, так как для частых слов часто имеет смысл нормировать вероятность, а для редких — игнорировать слишком маленькие значения.

### Построение векторных представлений слов

Модель GloVe создает векторные представления слов, используя оптимизацию для минимизации целевой функции. Эти представления могут быть использованы в различных задачах NLP, таких как:
- Классификация текста
- Поиск с учетом семантической близости
- Перевод с помощью машинного обучения

Важно заметить, что векторные представления, полученные с помощью GloVe, захватывают такие семантические и синтаксические отношения между словами, как:
- Синонимия (например, "король" и "королева")
- Антонимия (например, "большой" и "маленький")
- Операции с числовыми понятиями (например, "король" - "мужчина" + "женщина" = "королева")

## Функция потерь и её модификации

### Взвешивание ошибки

Для того чтобы корректно обработать большое количество разреженных совместных вероятностей, в модели GloVe используется функция весов $f(P_{ij})$, которая помогает уменьшить влияние редких и малозначимых случаев. Один из вариантов такой функции — это **модифицированная** функция весов, которая учитывает только те пары слов, для которых $P_{ij}$ достаточно велико, например:

$$
f(P_{ij}) = \frac{P_{ij}}{(P_{ij} + \alpha)}
$$

где $\alpha$ — это параметр, который контролирует, на сколько сильно редкие слова будут влиять на результат.

### Формула ошибки


Для вычисления градиентов целевой функции модели GloVe, которая минимизируется с использованием градиентного спуска, мы начнем с вывода частных производных целевой функции по векторами слов $\mathbf{v}_i$, $\mathbf{v}_j$, и смещениям $b_i$, $b_j$.

Целевая функция GloVe выглядит следующим образом:

$$
J = \sum_{i,j=1}^V f(P_{ij}) \left( \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j - \log(P_{ij}) \right)^2
$$

где:
- $P_{ij}$ — это частота совместного появления слов $w_i$ и $w_j$ в корпусе,
- $f(P_{ij})$ — это весовая функция, которая зависит от значения $P_{ij}$,
- $\mathbf{v}_i$ и $\mathbf{v}_j$ — это векторные представления слов $w_i$ и $w_j$,
- $b_i$ и $b_j$ — смещения для слов $w_i$ и $w_j$.

### Обозначения:
- $X_{ij} = \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j$ — предсказанная моделью величина совместного появления слов $w_i$ и $w_j$,
- $\hat{P}_{ij} = \log(P_{ij})$ — это логарифм истинной частоты совместного появления.

Для оптимизации, необходимо вычислить частные производные целевой функции по каждому параметру: $\mathbf{v}_i$, $\mathbf{v}_j$, $b_i$, и $b_j$.

### Шаг 1: Производная по $\mathbf{v}_i$

Целевая функция $J$ относительно $\mathbf{v}_i$ будет иметь следующий вид:

$$
J_i = \sum_{j=1}^V f(P_{ij}) \left( X_{ij} - \hat{P}_{ij} \right)^2
$$

Для нахождения градиента по $\mathbf{v}_i$, применим цепное правило:

$$
\frac{\partial J}{\partial \mathbf{v}_i} = \sum_{j=1}^V \frac{\partial}{\partial \mathbf{v}_i} \left( f(P_{ij}) \left( X_{ij} - \hat{P}_{ij} \right)^2 \right)
$$

Используем цепное правило для вычисления:

$$
\frac{\partial}{\partial \mathbf{v}_i} \left( f(P_{ij}) \left( X_{ij} - \hat{P}_{ij} \right)^2 \right) = 2 f(P_{ij}) \left( X_{ij} - \hat{P}_{ij} \right) \frac{\partial X_{ij}}{\partial \mathbf{v}_i}
$$

Здесь, $\frac{\partial X_{ij}}{\partial \mathbf{v}_i}$ вычисляется как:

$$
\frac{\partial X_{ij}}{\partial \mathbf{v}_i} = \mathbf{v}_j
$$

Таким образом, градиент по $\mathbf{v}_i$ будет:

$$
\frac{\partial J}{\partial \mathbf{v}_i} = 2 \sum_{j=1}^V f(P_{ij}) \left( X_{ij} - \hat{P}_{ij} \right) \mathbf{v}_j
$$

### Шаг 2: Производная по $\mathbf{v}_j$

Для вычисления градиента по $\mathbf{v}_j$, аналогичным образом получаем:

$$
\frac{\partial J}{\partial \mathbf{v}_j} = 2 \sum_{i=1}^V f(P_{ij}) \left( X_{ij} - \hat{P}_{ij} \right) \mathbf{v}_i
$$

### Шаг 3: Производная по $b_i$

Теперь вычислим градиент по смещению $b_i$. Для этого учитываем, что $X_{ij} = \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j$, и $b_i$ появляется только в части $b_i + b_j$:

$$
\frac{\partial J}{\partial b_i} = 2 \sum_{j=1}^V f(P_{ij}) \left( X_{ij} - \hat{P}_{ij} \right)
$$

### Шаг 4: Производная по $b_j$

Аналогично, градиент по $b_j$:

$$
\frac{\partial J}{\partial b_j} = 2 \sum_{i=1}^V f(P_{ij}) \left( X_{ij} - \hat{P}_{ij} \right)
$$

### Итоговые градиенты:

1. **Градиент по $\mathbf{v}_i$:**

$$
\frac{\partial J}{\partial \mathbf{v}_i} = 2 \sum_{j=1}^V f(P_{ij}) \left( \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j - \log(P_{ij}) \right) \mathbf{v}_j
$$

2. **Градиент по $\mathbf{v}_j$:**

$$
\frac{\partial J}{\partial \mathbf{v}_j} = 2 \sum_{i=1}^V f(P_{ij}) \left( \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j - \log(P_{ij}) \right) \mathbf{v}_i
$$

3. **Градиент по $b_i$:**

$$
\frac{\partial J}{\partial b_i} = 2 \sum_{j=1}^V f(P_{ij}) \left( \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j - \log(P_{ij}) \right)
$$

4. **Градиент по $b_j$:**

$$
\frac{\partial J}{\partial b_j} = 2 \sum_{i=1}^V f(P_{ij}) \left( \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j - \log(P_{ij}) \right)
$$

### Примечания:

- Функция $f(P_{ij})$ — это весовая функция, которая зависит от частоты совместного появления $P_{ij}$. Обычно она принимает форму:

$$
f(P_{ij}) = \frac{P_{ij}}{(P_{ij} + \alpha)}
$$

где $\alpha$ — это параметр, регулирующий влияние редких слов. Важно, что для $P_{ij}$ меньше $\alpha$, вес уменьшается.

- Эти градиенты можно использовать для обновления параметров с помощью метода градиентного спуска.


## Алгоритм обучения модели GloVe

Процесс обучения модели GloVe состоит из следующих этапов:

1. **Построение матрицы совместных вероятностей:** Для каждого корпуса текста вычисляется матрица совместных вероятностей $P_{ij}$ для всех пар слов.
2. **Обучение векторных представлений:** Используя целевую функцию, модель минимизирует ошибку и обучает векторы слов с учетом глобальной статистики корпуса.
3. **Оптимизация:** Модель применяет стохастический градиентный спуск (SGD) или его варианты для оптимизации функции потерь.

## Особенности модели

- **Гибкость:** Модель GloVe позволяет легко адаптировать размер векторов слов, а также выбирать различные функции весов для разных типов данных.
- **Контекст:** В отличие от других моделей, GloVe использует глобальную информацию о словах, что позволяет создавать более точные и информативные представления.
- **Производительность:** Несмотря на свою сложность, модель GloVe может быть эффективно обучена на больших корпусах текстов.

## Применение GloVe

- **Семантический поиск:** Благодаря векторным представлениям слов модель GloVe позволяет проводить поиск информации, основываясь не на точных совпадениях, а на смысловой близости запросов.
- **Анализ текста:** Векторные представления используются для извлечения смысловых отношений между словами, что полезно для задач обработки естественного языка, таких как анализ тональности, классификация текста и другие.

Таким образом, модель GloVe является мощным инструментом для обработки и анализа текстов, позволяя эффективно использовать глобальную статистику для обучения векторных представлений слов. Она сочетает в себе лучшие свойства методов, ориентированных на локальные контексты, и методов, работающих с глобальной статистикой, что делает её удобным инструментом для широкого спектра задач в области обработки естественного языка.







Давайте рассмотрим, как работает эта модель на основе простого корпуса текстов и покажем, как вычисляются векторные представления слов с использованием формул.

### Пример корпуса

Предположим, у нас есть следующий маленький корпус текстов:

1. "I love machine learning"
2. "Machine learning is fun"
3. "I enjoy learning"

Из этого корпуса мы будем строить матрицу совместных вероятностей для слов.

### 1. Построение матрицы частоты совместных слов

Сначала нам нужно вычислить частоты совместных появлений слов в нашем корпусе. Для этого создадим **матрицу частот совместных слов** $X$, где $X_{ij}$ — это количество раз, когда слово $w_i$ и слово $w_j$ появляются в одном контексте.

Допустим, что контекстное окно равно 1 слову, то есть, слова считаются "совместными", если они стоят рядом.

|         | **I** | **love** | **machine** | **learning** | **is** | **fun** | **enjoy** |
||-|-|-|--|--||--|
| **I**       | 0     | 1        | 1           | 1            | 0      | 0       | 1         |
| **love**    | 1     | 0        | 1           | 1            | 0      | 0       | 0         |
| **machine** | 1     | 1        | 0           | 2            | 1      | 0       | 0         |
| **learning**| 1     | 1        | 2           | 0            | 1      | 1       | 1         |
| **is**      | 0     | 0        | 1           | 1            | 0      | 1       | 0         |
| **fun**     | 0     | 0        | 0           | 1            | 1      | 0       | 0         |
| **enjoy**   | 1     | 0        | 0           | 1            | 0      | 0       | 0         |

Эта матрица $X$ показывает, сколько раз два слова появляются рядом в контексте.

### 2. Преобразование частот в вероятности

Далее, мы рассчитываем вероятности совместного появления слов. Для этого нормализуем значения в матрице $X$, разделив каждую строку на сумму её элементов. Это даст нам **матрицу вероятностей совместных слов** $P_{ij}$.

Для первой строки:

$$
P_{\text{I,love}} = \frac{X_{\text{I,love}}}{\sum_j X_{\text{I,j}}} = \frac{1}{1+1+1+1+0+0+1} = \frac{1}{5}
$$

Для других строк аналогично вычисляются вероятности. В результате получаем матрицу вероятностей совместного появления:

|         | **I** | **love** | **machine** | **learning** | **is** | **fun** | **enjoy** |
||-|-|-|--|--||--|
| **I**       | 0     | 0.2      | 0.2         | 0.2          | 0      | 0       | 0.2       |
| **love**    | 0.2   | 0        | 0.2         | 0.2          | 0      | 0       | 0         |
| **machine** | 0.2   | 0.2      | 0           | 0.4          | 0.2    | 0       | 0         |
| **learning**| 0.2   | 0.2      | 0.4         | 0            | 0.2    | 0.2     | 0.2       |
| **is**      | 0     | 0        | 0.2         | 0.2          | 0      | 0.2     | 0         |
| **fun**     | 0     | 0        | 0           | 0.2          | 0.2    | 0       | 0         |
| **enjoy**   | 0.2   | 0        | 0           | 0.2          | 0      | 0       | 0         |

### 3. Построение целевой функции GloVe

Теперь, зная матрицу вероятностей совместных слов, модель GloVe будет обучать векторные представления слов. Векторные представления $\mathbf{v}_i$ и $\mathbf{v}_j$ для слов $w_i$ и $w_j$ должны быть такими, чтобы для каждой пары слов выполнялось следующее приближение для совместной вероятности $P_{ij}$:

$$
f(P_{ij}) = \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j - \log(P_{ij})
$$

Модель GloVe минимизирует ошибку:

$$
J = \sum_{i,j=1}^V f(P_{ij}) \left( \mathbf{v}_i^T \mathbf{v}_j + b_i + b_j - \log(P_{ij}) \right)^2
$$

где:
- $f(P_{ij})$ — это весовая функция, которая контролирует влияние вероятности совместного появления. Обычно используется функция вида $f(P_{ij}) = \frac{P_{ij}}{(P_{ij} + \alpha)}$, где $\alpha$ — параметр, регулирующий влияние редких слов.
- $\mathbf{v}_i$ и $\mathbf{v}_j$ — векторные представления слов $w_i$ и $w_j$.
- $b_i$ и $b_j$ — смещения для слов.

### 4. Обучение модели

Процесс обучения заключается в оптимизации целевой функции $J$, чтобы минимизировать ошибку предсказания для всех возможных пар слов. Мы используем **метод градиентного спуска** для обновления параметров $\mathbf{v}_i$, $\mathbf{v}_j$, $b_i$ и $b_j$.

Алгоритм градиентного спуска для обновления параметров выглядит так:

$$
\mathbf{v}_i \leftarrow \mathbf{v}_i - \eta \frac{\partial J}{\partial \mathbf{v}_i}
$$

$$
\mathbf{v}_j \leftarrow \mathbf{v}_j - \eta \frac{\partial J}{\partial \mathbf{v}_j}
$$

где $\eta$ — это шаг обучения (learning rate).

### 5. Итоги

После выполнения этого процесса обучения, векторные представления $\mathbf{v}_i$ и $\mathbf{v}_j$ будут содержать числовые векторы, которые отражают семантическую схожесть слов. Например, слова, которые часто появляются в схожих контекстах, будут иметь похожие векторные представления.

Таким образом, модель GloVe обучает векторные представления слов, используя **глобальную информацию о совместных вероятностях слов** в корпусе. В отличие от моделей, ориентированных только на локальный контекст, GloVe сочетает в себе локальные и глобальные аспекты для обучения более точных и информативных представлений слов.



Реализация модели **GloVe** с нуля в Python требует нескольких шагов, включая обработку текста, создание матрицы частот совместных слов и обучение векторных представлений с использованием градиентного спуска. Для упрощения примера будем использовать небольшой корпус текста, как в предыдущем примере.

Ниже представлена базовая реализация модели GloVe. Для упрощения мы будем использовать небольшие параметры и корпус текста, а также просто обучать модель с использованием градиентного спуска.

### Шаги:

1. **Создание матрицы совместных частот**.
2. **Преобразование частот в вероятности**.
3. **Инициализация векторных представлений**.
4. **Минимизация целевой функции с использованием градиентного спуска**.

### Реализация:


In [24]:
import numpy as np
from collections import Counter
import math
import random

# 1. Создадим пример корпуса текстов
corpus = [
    "I love machine learning",
    "Machine learning is fun",
    "I enjoy learning"
]

# 2. Обработка корпуса (создание словаря и контекстных пар)
def build_vocab(corpus):
    word_freq = Counter()
    for sentence in corpus:
        for word in sentence.split():
            word_freq[word] += 1
    return word_freq

# Создаем словарь и индексируем слова
vocab = build_vocab(corpus)
word_to_id = {word: idx for idx, word in enumerate(vocab)}
id_to_word = {idx: word for word, idx in word_to_id.items()}
V = len(vocab)  # Размер словаря

# 3. Создание матрицы совместных частот
def create_cooccurrence_matrix(corpus, window_size=1):
    cooccurrence_matrix = np.zeros((V, V))
    for sentence in corpus:
        words = sentence.split()
        for i, word in enumerate(words):
            word_id = word_to_id[word]
            # Рассматриваем слова в пределах контекстного окна
            start = max(0, i - window_size)
            end = min(len(words), i + window_size + 1)
            for j in range(start, end):
                if i != j:
                    context_word_id = word_to_id[words[j]]
                    cooccurrence_matrix[word_id, context_word_id] += 1
    return cooccurrence_matrix

# Создаем матрицу частот совместных слов
cooccurrence_matrix = create_cooccurrence_matrix(corpus, window_size=1)

# 4. Инициализация векторных представлений и смещений
def initialize_vectors(V, embedding_dim=2):
    W = np.random.uniform(-0.5, 0.5, (V, embedding_dim))
    b = np.zeros(V)  # Смещения для слов
    return W, b

embedding_dim = 2
W, b = initialize_vectors(V, embedding_dim)

# 5. Функция потерь GloVe
def glove_loss(W, b, cooccurrence_matrix, alpha=0.75, x_max=100, lambda_reg=0.1):
    loss = 0
    for i in range(V):
        for j in range(V):
            if cooccurrence_matrix[i, j] > 0:
                # Глобальная функция веса
                weight = (cooccurrence_matrix[i, j] / x_max) ** alpha if cooccurrence_matrix[i, j] < x_max else 1
                # Расчет ошибки
                prediction = np.dot(W[i], W[j]) + b[i] + b[j]
                loss += weight * (prediction - np.log(cooccurrence_matrix[i, j])) ** 2
                # Регуляризация
                loss += lambda_reg * (np.linalg.norm(W[i]) ** 2 + np.linalg.norm(W[j]) ** 2)
    return loss

# 6. Градиентный спуск для оптимизации
def train_glove(W, b, cooccurrence_matrix, learning_rate=0.01, epochs=1000):
    for epoch in range(epochs):
        loss = glove_loss(W, b, cooccurrence_matrix)
        if epoch % 100 == 0:
            print(f"Epoch {epoch}, Loss: {loss}")

        # Обновляем вектора и смещения с использованием градиентного спуска
        for i in range(V):
            for j in range(V):
                if cooccurrence_matrix[i, j] > 0:
                    weight = (cooccurrence_matrix[i, j] / 100) ** 0.75 if cooccurrence_matrix[i, j] < 100 else 1
                    diff = np.dot(W[i], W[j]) + b[i] + b[j] - np.log(cooccurrence_matrix[i, j])
                    grad_W_i = weight * diff * W[j] + 2 * 0.1 * W[i]
                    grad_W_j = weight * diff * W[i] + 2 * 0.1 * W[j]
                    grad_b_i = weight * diff
                    grad_b_j = weight * diff

                    # Обновляем параметры
                    W[i] -= learning_rate * grad_W_i
                    W[j] -= learning_rate * grad_W_j
                    b[i] -= learning_rate * grad_b_i
                    b[j] -= learning_rate * grad_b_j
    return W, b

# 7. Обучаем модель
W, b = train_glove(W, b, cooccurrence_matrix)

# 8. Результат: векторные представления
def get_word_vector(word):
    word_id = word_to_id[word]
    return W[word_id]

# Пример: Получаем векторное представление для слова "machine"
print(get_word_vector("machine"))

Epoch 0, Loss: 0.5392021035794872
Epoch 100, Loss: 0.08646091508686206
Epoch 200, Loss: 0.020842844123965847
Epoch 300, Loss: 0.00627227485039026
Epoch 400, Loss: 0.002216820422656117
Epoch 500, Loss: 0.0008762878395693146
Epoch 600, Loss: 0.0003701267517558548
Epoch 700, Loss: 0.00016191817295603664
Epoch 800, Loss: 7.213019771076706e-05
Epoch 900, Loss: 3.246633861730879e-05
[-7.56723489e-05 -1.96834607e-05]


### Объяснение кода:

1. **Предобработка данных**:
   - Мы создаем корпус, состоящий из нескольких предложений.
   - В функции `build_vocab()` считаем частоту появления каждого слова.
   - Создаем отображение слов в индексы, которое позволит быстро обращаться к словам.

2. **Создание матрицы совместных частот**:
   - Функция `create_cooccurrence_matrix()` создает матрицу, где на пересечении строк и столбцов стоят частоты, с которой два слова появляются рядом (в пределах контекстного окна).
   
3. **Инициализация векторов слов и смещений**:
   - Вектора слов и смещения инициализируются случайными значениями, используя нормальное распределение.
   
4. **Целевая функция и обучение**:
   - Функция `glove_loss()` реализует целевую функцию GloVe, которая минимизирует разницу между предсказанным и реальным логарифмом частоты совместных слов.
   - Мы также используем регуляризацию, чтобы предотвратить переобучение.
   - В функции `train_glove()` осуществляется оптимизация параметров с использованием градиентного спуска.

5. **Результат**:
   - После обучения можно извлекать векторные представления слов с помощью функции `get_word_vector()`.

### Ожидаемый результат:

Программа обучает модель GloVe на небольшом корпусе текста и выводит векторное представление для слова "machine". Вектора будут зависеть от контекста в тексте и будут обучаться так, чтобы схожие слова имели похожие вектора.

### Замечания:

1. Этот пример является **упрощенной** реализацией, и в реальных приложениях используется более сложная версия GloVe с оптимизированными вычислениями.
2. Модель использует **градиентный спуск**, что требует времени на обучение, особенно на больших данных.


Испоьзование gensim:


In [25]:
import gensim
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt_tab')

# Скачиваем необходимый ресурс для токенизации
nltk.download('punkt')

# Пример корпуса для обучения
corpus = [
    "I love machine learning",
    "Machine learning is fun",
    "I enjoy learning"
]

# Токенизация текста
tokenized_corpus = [word_tokenize(sentence.lower()) for sentence in corpus]

# Обучаем модель GloVe
model = gensim.models.Word2Vec(tokenized_corpus, vector_size=100, window=5, min_count=1, sg=0)

# Получаем вектор для слова
vector = model.wv['machine']
print("Вектор для слова 'machine':")
print(vector)

# Пример поиска наиболее похожих слов
similar_words = model.wv.most_similar("machine", topn=3)
print("Три слова, похожие на 'machine':")
for word, similarity in similar_words:
    print(f"{word}: {similarity}")

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Вектор для слова 'machine':
[-8.6196875e-03  3.6657380e-03  5.1898835e-03  5.7419385e-03
  7.4669183e-03 -6.1676754e-03  1.1056137e-03  6.0472824e-03
 -2.8400505e-03 -6.1735227e-03 -4.1022300e-04 -8.3689485e-03
 -5.6000124e-03  7.1045388e-03  3.3525396e-03  7.2256695e-03
  6.8002474e-03  7.5307419e-03 -3.7891543e-03 -5.6180597e-04
  2.3483764e-03 -4.5190323e-03  8.3887316e-03 -9.8581640e-03
  6.7646410e-03  2.9144168e-03 -4.9328315e-03  4.3981876e-03
 -1.7395747e-03  6.7113843e-03  9.9648498e-03 -4.3624435e-03
 -5.9933780e-04 -5.6956373e-03  3.8508223e-03  2.7866268e-03
  6.8910765e-03  6.1010956e-03  9.5384968e-03  9.2734173e-03
  7.8980681e-03 -6.9895042e-03 -9.1558648e-03 -3.5575271e-04
 -3.0998408e-03  7.8943167e-03  5.9385742e-03 -1.5456629e-03
  1.5109634e-03  1.7900408e-03  7.8175711e-03 -9.5101865e-03
 -2.0553112e-04  3.4691966e-03 -9.3897223e-04  8.3817719e-03
  9.0107834e-03  6.5365066e-03 -7.1162102e-04  7.7104042e-03
 -8.5343346e-03  3.2071066e-03 -4.6379971e-03 -5.0889552e