<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/NLP/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0_(Text_Data_Vectorization).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Введение в векторизацию текста**

## **1.1. Почему машины не могут напрямую работать с текстом?**

Машинное обучение и искусственный интеллект основываются на математических моделях, которые требуют числовых данных для выполнения вычислений. Текстовые данные, будучи последовательностями символов, букв или слов, изначально не подходят для непосредственного использования в алгоритмах машинного обучения. Это связано с несколькими ключевыми причинами:

1. **Несовместимость с числовыми операциями**: Алгоритмы машинного обучения выполняют арифметические операции, такие как сложение, умножение и скалярные произведения. Эти операции невозможны для строковых данных.

2. **Отсутствие структуры**: Тексты имеют переменную длину (например, предложение может состоять из 5 или 50 слов), что затрудняет их использование в алгоритмах, требующих фиксированной размерности входных данных.

3. **Амбивалентность семантики**: Одно и то же слово может иметь разные значения в зависимости от контекста. Например, слово "банк" может означать финансовое учреждение или берег реки. Машины не способны интерпретировать такую многозначность без дополнительных механизмов.

4. **Необходимость метрик близости**: Для многих задач, таких как классификация или кластеризация, важно уметь измерять схожесть между объектами. Строковые данные не позволяют это делать напрямую, поскольку нет естественной метрики расстояния между словами или предложениями.

В результате, перед тем как использовать текстовые данные в алгоритмах машинного обучения, необходимо преобразовать их в числовые представления, которые сохраняют важную информацию о содержании текста и позволяют выполнять необходимые операции.



## **1.2. Что такое векторизация?**

Векторизация — это процесс преобразования текстовых данных в числовые векторы фиксированной длины. Каждый текстовый элемент (слово, предложение или документ) представляется в виде набора чисел, который можно использовать в качестве входных данных для алгоритмов машинного обучения. Векторы обычно содержат информацию о частоте встречаемости слов, их контексте или семантическом значении.

Основная цель векторизации — обеспечить возможность работы с текстом в числовом пространстве, где можно применять математические операции, такие как вычисление расстояний между векторами, поиск подобных элементов или определение наиболее важных признаков.

Пример:  
Пусть имеется два слова: "кошка" и "собака". Без векторизации мы не можем сравнить их напрямую. Однако после векторизации они могут быть представлены числами:
- "кошка" → [0.8, -0.5, 0.3]
- "собака" → [0.7, -0.6, 0.2]

Теперь мы можем вычислить расстояние между этими векторами, чтобы определить степень их схожести.



## **1.3. Основные требования к векторам**

Чтобы векторы были полезными для алгоритмов машинного обучения, они должны соответствовать следующим требованиям:

1. **Фиксированная длина**: Все векторы должны иметь одинаковое количество компонентов. Это необходимо для совместимости с алгоритмами, которые ожидают однородный формат входных данных.

2. **Численное представление**: Каждая компонента вектора должна быть числом, что позволяет выполнять математические операции.

3. **Семантическая информативность**: Вектор должен отражать смысл исходного текстового элемента. Например, векторы похожих слов ("кошка" и "кот") должны быть близкими, а векторы различных слов ("кошка" и "автомобиль") — далекими.

4. **Эффективность хранения и обработки**: Векторы должны быть компактными и эффективными для хранения и вычислений, особенно при работе с большими объемами данных.



## **1.4. Примеры преобразования текста в числовой формат**

Для лучшего понимания рассмотрим пример преобразования нескольких слов и коротких предложений в числовой формат вручную.

### **Пример 1: Преобразование слов**

Пусть имеется словарь из трех слов: {"кошка", "собака", "дерево"}. Мы можем создать числовой код для каждого слова, используя простой порядковый номер:
- "кошка" → 1
- "собака" → 2
- "дерево" → 3

Однако такой подход имеет ограничения, так как он не учитывает контекст или схожесть слов.

### **Пример 2: Преобразование предложений**

Рассмотрим два коротких предложения:
1. "Кошка спит на столе."
2. "Собака играет во дворе."

Мы можем преобразовать каждое предложение в числовой формат, используя простой подсчет частоты слов. Предположим, что наш словарь состоит из пяти уникальных слов: {"кошка", "спит", "на", "собака", "играет"}. Каждому слову присваивается индекс:
- "кошка" → 1
- "спит" → 2
- "на" → 3
- "собака" → 4
- "играет" → 5

Теперь каждое предложение можно представить в виде вектора, где каждый элемент соответствует частоте встречаемости слова в предложении:
- "Кошка спит на столе." → [1, 1, 1, 0, 0] (слово "столе" отсутствует в словаре)
- "Собака играет во дворе." → [0, 0, 0, 1, 1] (слова "во" и "дворе" также отсутствуют)



## **1.5. Практическое задание**

### **Задание 1: Преобразование слов**
Преобразуйте следующие слова в числовой формат, используя простой порядковый номер:
- "яблоко"
- "груша"
- "апельсин"

**Решение**:
- "яблоко" → 1
- "груша" → 2
- "апельсин" → 3



## **Заключение**

Векторизация текста является ключевым этапом подготовки данных для машинного обучения. Она позволяет преобразовать текстовые данные в числовые представления, которые можно использовать в алгоритмах классификации, кластеризации, поиска и других задачах. В дальнейших разделах мы рассмотрим различные методы векторизации, начиная от простых (One-Hot Encoding, Bag of Words) до более сложных (Word Embeddings, BERT).



# **2. One-Hot Encoding: Математические основы**

## **2.1. Что такое One-Hot Encoding?**

One-Hot Encoding — это метод преобразования категориальных данных (например, слов или меток классов) в числовые векторы фиксированной длины. Каждый уникальный элемент из исходного набора данных кодируется в виде вектора, где только один элемент равен 1, а остальные равны 0. Это позволяет представить дискретные категории в форме, подходящей для использования в алгоритмах машинного обучения.

Основная идея One-Hot Encoding заключается в том, чтобы создать отдельную бинарную переменную (или "размерность") для каждого уникального значения в наборе данных. Например, если у нас есть три уникальных слова: "кошка", "собака" и "дерево", то каждое слово будет представлено вектором размерности 3, где только одна компонента равна 1, а остальные равны 0.



## **2.2. Математическое описание процесса**

Пусть имеется множество уникальных категорий $ C = \{c_1, c_2, \dots, c_n\} $, где $ n $ — общее количество уникальных значений. Для каждого элемента $ c_i \in C $ мы создаем вектор $ \mathbf{v}_i $ длины $ n $, такой что:

$$
v_{ij} =
\begin{cases}
1, & \text{если } j = i \\
0, & \text{в противном случае}
\end{cases}
$$

Здесь:
- $ v_{ij} $ — значение $ j $-го элемента вектора $ \mathbf{v}_i $,
- $ i $ — индекс категории $ c_i $,
- $ j $ — позиция в векторе.

Таким образом, каждый элемент множества $ C $ получает свой уникальный вектор, состоящий из нулей и одной единицы.

### **Пример математического представления**
Для множества $ C = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}\} $:
- "кошка" → $ \mathbf{v}_1 = [1, 0, 0] $,
- "собака" → $ \mathbf{v}_2 = [0, 1, 0] $,
- "дерево" → $ \mathbf{v}_3 = [0, 0, 1] $.



## **2.3. Формализация процесса One-Hot Encoding**

Процесс One-Hot Encoding можно формализовать как функцию $ f : C \to \mathbb{R}^n $, где:
- $ C $ — множество уникальных категорий,
- $ n = |C| $ — количество уникальных категорий,
- $ \mathbb{R}^n $ — пространство векторов размерности $ n $.

Функция $ f(c_i) $ определяется следующим образом:
$$
f(c_i) = \mathbf{v}_i = [v_{i1}, v_{i2}, \dots, v_{in}]
$$
где:
$$
v_{ij} =
\begin{cases}
1, & \text{если } j = i \\
0, & \text{в противном случае}
\end{cases}
$$

Эта функция является инъекцией (однозначным отображением), так как каждому уникальному элементу $ c_i $ соответствует уникальный вектор $ \mathbf{v}_i $.



## **2.4. Преобразование текста с помощью One-Hot Encoding**

При применении One-Hot Encoding к текстовым данным каждое уникальное слово из корпуса текста рассматривается как категория. Таким образом, весь корпус текста преобразуется в матрицу, где:
- Каждая строка соответствует одному текстовому элементу (например, слову или предложению),
- Каждый столбец соответствует уникальному слову в словаре.

Если словарь содержит $ n $ уникальных слов, то каждое слово будет представлено вектором размерности $ n $.

### **Математическая интерпретация текстового преобразования**
Пусть имеется текст $ T = \{w_1, w_2, \dots, w_m\} $, где $ m $ — количество слов в тексте. Для каждого слова $ w_k \in T $ строится вектор $ \mathbf{v}_k $ по правилу One-Hot Encoding. В результате текст $ T $ преобразуется в матрицу $ M \in \mathbb{R}^{m \times n} $, где:
- $ m $ — количество слов в тексте,
- $ n $ — количество уникальных слов в словаре.

Каждая строка матрицы $ M $ представляет одно слово из текста.



## **2.5. Проблемы One-Hot Encoding**


### **2.5.1. Разреженность векторов**
One-Hot Encoding приводит к созданию разреженных векторов, где большинство компонент равны 0. Это связано с тем, что каждый вектор содержит только одну единицу, а остальные элементы заполнены нулями. Разреженность может вызывать проблемы при работе с большими объемами данных, так как требуется много памяти для хранения этих векторов.


Предположим, что у нас есть словарь из 10 уникальных слов:  
$$ \text{словарь} = \{\text{"яблоко", "банан", "груша", "арбуз", "виноград", "апельсин", "мандарин", "киви", "персик", "абрикос"}\} $$

Если мы хотим закодировать слово "груша" с помощью One-Hot Encoding, получим следующий вектор размерности 10:
$$
\text{вектор("груша")} = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
$$

Здесь только один элемент равен 1 (третий элемент), а остальные — нули. Если словарь будет содержать 1000 слов, то вектор станет размером 1000, но все равно будет иметь только одну единицу и 999 нулей.

**Пример разреженности:**  
- Размер словаря $ n = 1000 $
- Количество ненулевых элементов в каждом векторе = 1
- Процент заполнения: $ \frac{1}{1000} \times 100\% = 0.1\% $

Такая разреженность приводит к неэффективному использованию памяти и может замедлить вычисления.



### **2.5.2. Высокая размерность**

Если словарь содержит большое количество уникальных слов ($ n $ велико), то размерность векторов также становится большой. Это может затруднять работу с данными, так как многие алгоритмы плохо масштабируются с увеличением размерности.


Рассмотрим другой пример, где словарь содержит уже 10000 уникальных слов. Если мы кодируем каждое слово через One-Hot Encoding, то каждый вектор будет размерности 10000.

**Пример высокой размерности:**  
- Размер словаря $ n = 10000 $
- Размерность каждого вектора = 10000
- Если набор данных содержит 1000 слов, то общее количество элементов в матрице признаков:  
$$ 1000 \times 10000 = 10^7 $$

Такое большое количество элементов затрудняет работу алгоритмов машинного обучения, особенно тех, которые плохо масштабируются с ростом размерности данных.



### **2.5.3. Отсутствие семантической информации**

One-Hot Encoding не учитывает семантическую связь между словами. Например, векторы для слов "кошка" и "собака" будут совершенно различными, хотя эти слова имеют схожее значение. Это ограничивает возможности метода в задачах, требующих учета контекста или смысловых отношений.



Пусть словарь содержит слова "кошка", "собака", "стол", "стул". Мы кодируем эти слова через One-Hot Encoding:

$$
\text{вектор("кошка")} = [1, 0, 0, 0]
$$
$$
\text{вектор("собака")} = [0, 1, 0, 0]
$$
$$
\text{вектор("стол")} = [0, 0, 1, 0]
$$
$$
\text{вектор("стул")} = [0, 0, 0, 1]
$$

Видно, что векторы для "кошки" и "собаки" полностью различны, хотя эти слова имеют схожее значение (оба относятся к животным). Аналогично, векторы для "стола" и "стула" также различны, хотя они оба относятся к мебели.

**Метрика расстояния между векторами:**  
Если посчитать Евклидово расстояние между векторами "кошки" и "собаки":
$$
d(\text{"кошка"}, \text{"собака"}) = \sqrt{(1-0)^2 + (0-1)^2 + (0-0)^2 + (0-0)^2} = \sqrt{2}
$$

Аналогично, расстояние между "столом" и "стулом" также будет $ \sqrt{2} $. Таким образом, One-Hot Encoding не отражает реальных смысловых связей между словами.



### **Итоговый пример всех недостатков**

Пусть словарь содержит 5000 уникальных слов. Мы хотим закодировать предложение из 50 слов.  

1. **Разреженность:**  
   Каждый вектор будет размерности 5000, но только 1 элемент будет равен 1, а остальные — 0. Процент заполнения:  
   $$
   \frac{1}{5000} \times 100\% = 0.02\%
   $$

2. **Высокая размерность:**  
   Для всего предложения потребуется матрица размера $ 50 \times 5000 = 250000 $ элементов.

3. **Отсутствие семантики:**  
   Если в предложении встречаются слова "кошка" и "собака", их векторы будут совершенно различными, хотя эти слова близки по смыслу.


# **2. One-Hot Encoding: Конкретные числовые примеры**

В предыдущем разделе мы рассмотрели математические основы One-Hot Encoding. Теперь давайте разберем конкретные числовые примеры, чтобы лучше понять процесс преобразования категориальных данных в числовые векторы.



## **Пример 1: Преобразование уникальных слов**

Пусть у нас есть следующее множество уникальных слов:
$$
C = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}\}.
$$

### **Шаг 1: Определение размерности**
Множество содержит $ n = 3 $ уникальных элемента. Следовательно, каждый вектор будет иметь размерность 3.

### **Шаг 2: Создание векторов**
Каждому уникальному слову соответствует вектор длины 3, где только одна компонента равна 1, а остальные — 0:
- "кошка" → $ [1, 0, 0] $,
- "собака" → $ [0, 1, 0] $,
- "дерево" → $ [0, 0, 1] $.

### **Матричное представление**
Если объединить все векторы в одну матрицу, получим следующую таблицу:

| Слово    | Вектор          |
|----------|-----------------|
| кошка    | $ [1, 0, 0] $  |
| собака   | $ [0, 1, 0] $  |
| дерево   | $ [0, 0, 1] $  |


## **Пример 2: Преобразование текста**

Теперь рассмотрим более сложный случай — преобразование целого текста. Пусть исходный текст состоит из нескольких слов:
$$
T = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}, \text{"кошка"}, \text{"дерево"}\}.
$$

### **Шаг 1: Создание словаря**
Сначала создаем словарь уникальных слов:
$$
C = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}\}.
$$

Размерность векторов будет равна $ n = 3 $.

### **Шаг 2: Преобразование каждого слова**
Для каждого слова из текста $ T $ строим соответствующий вектор:
- "кошка" → $ [1, 0, 0] $,
- "собака" → $ [0, 1, 0] $,
- "дерево" → $ [0, 0, 1] $,
- "кошка" → $ [1, 0, 0] $,
- "дерево" → $ [0, 0, 1] $.

### **Шаг 3: Матричное представление текста**
Объединяем все векторы в матрицу $ M $, где каждая строка соответствует одному слову из текста:

$$
M =
\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
1 & 0 & 0 \\
0 & 0 & 1
\end{bmatrix}
$$

Здесь:
- Количество строк ($ m = 5 $) равно количеству слов в тексте,
- Количество столбцов ($ n = 3 $) равно количеству уникальных слов в словаре.



## **Пример 3: Преобразование категорий**

One-Hot Encoding также можно применять к категориальным данным, например, меткам классов. Пусть имеется набор данных с тремя категориями:
$$
D = \{\text{"красный"}, \text{"зеленый"}, \text{"синий"}, \text{"зеленый"}, \text{"красный"}\}.
$$

### **Шаг 1: Создание словаря**
Создаем словарь уникальных категорий:
$$
C = \{\text{"красный"}, \text{"зеленый"}, \text{"синий"}\}.
$$

Размерность векторов будет равна $ n = 3 $.

### **Шаг 2: Преобразование каждой категории**
Для каждой категории строим соответствующий вектор:
- "красный" → $ [1, 0, 0] $,
- "зеленый" → $ [0, 1, 0] $,
- "синий" → $ [0, 0, 1] $,
- "зеленый" → $ [0, 1, 0] $,
- "красный" → $ [1, 0, 0] $.

### **Шаг 3: Матричное представление**
Объединяем все векторы в матрицу $ M $:

$$
M =
\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
0 & 1 & 0 \\
1 & 0 & 0
\end{bmatrix}
$$



## **Пример 4: Разреженность и высокая размерность**

Рассмотрим случай, когда словарь содержит много уникальных слов. Пусть:
$$
C = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}, \text{"стол"}, \text{"книга"}, \dots, \text{"автомобиль"}\},
$$
где $ n = 100 $ (100 уникальных слов).

Если текст состоит из одного слова, например "кошка", то его One-Hot вектор будет выглядеть так:
$$
[1, 0, 0, 0, 0, \dots, 0],
$$
где всего 100 компонент, и только первая равна 1.

Этот пример демонстрирует проблему разреженности: большинство компонент вектора равны 0, что требует дополнительной памяти для хранения данных.



## **Заключение**

One-Hot Encoding позволяет эффективно преобразовать категориальные данные в числовые векторы. Однако при работе с большими словарями возникают проблемы разреженности и высокой размерности. Эти недостатки становятся особенно заметными при обработке текстовых данных, где количество уникальных слов может быть очень велико. В следующих разделах мы рассмотрим более продвинутые методы векторизации, которые решают эти проблемы.

**Числовые примеры:**
1. Для множества $ C = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}\} $:
   - "кошка" → $ [1, 0, 0] $,
   - "собака" → $ [0, 1, 0] $,
   - "дерево" → $ [0, 0, 1] $.
2. Для текста $ T = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}, \text{"кошка"}, \text{"дерево"}\} $:
   $$
   M =
   \begin{bmatrix}
   1 & 0 & 0 \\
   0 & 1 & 0 \\
   0 & 0 & 1 \\
   1 & 0 & 0 \\
   0 & 0 & 1
   \end{bmatrix}.
   $$
   
 # **Реализация One-Hot Encoding на Python**

Мы можем реализовать One-Hot Encoding в Python несколькими способами. Рассмотрим два основных подхода:

1. **С использованием библиотеки `pandas`**.
2. **С использованием библиотеки `scikit-learn`**.

Для примера будем работать с набором данных, состоящим из слов: `["кошка", "собака", "дерево", "кошка", "дерево"]`.



## **1. Реализация One-Hot Encoding с помощью `pandas`**

Библиотека `pandas` предоставляет простой метод `get_dummies`, который автоматически создает One-Hot векторы для категориальных данных.

```python
import pandas as pd

# Исходные данные
data = ["кошка", "собака", "дерево", "кошка", "дерево"]

# Создаем DataFrame
df = pd.DataFrame(data, columns=["слово"])

# Применяем One-Hot Encoding
one_hot_encoded = pd.get_dummies(df["слово"])

# Вывод результатов
print("One-Hot Encoding с помощью pandas:")
print(one_hot_encoded)
```


## **2. Реализация One-Hot Encoding с помощью `scikit-learn`**

Библиотека `scikit-learn` предлагает класс `OneHotEncoder`, который более гибкий и часто используется в задачах машинного обучения.

```python
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Исходные данные
data = np.array(["кошка", "собака", "дерево", "кошка", "дерево"]).reshape(-1, 1)

# Создаем объект OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)  # Устанавливаем sparse_output=False для получения массива NumPy

# Применяем One-Hot Encoding
one_hot_encoded = encoder.fit_transform(data)

# Вывод результатов
print("One-Hot Encoding с помощью scikit-learn:")
print(one_hot_encoded)
```


## **3. Сравнение двух подходов**

| **Параметр**         | **Pandas**                              | **Scikit-learn**                       |
|-----------------------|-----------------------------------------|----------------------------------------|
| **Простота использования** | Очень простой, один вызов `get_dummies` | Требует создания объекта `OneHotEncoder` |
| **Гибкость**          | Ограниченная                            | Более гибкая (например, можно контролировать порядок категорий) |
| **Формат выходных данных** | DataFrame                              | NumPy массив                          |



## **4. Дополнительный пример: Обработка нескольких категорий**

Если у нас есть несколько категориальных признаков, то можно применить One-Hot Encoding к каждому из них.

```python
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Исходные данные с несколькими категориями
data = pd.DataFrame({
    "животное": ["кошка", "собака", "дерево", "кошка", "дерево"],
    "цвет": ["красный", "зеленый", "синий", "красный", "синий"]
})

# Метод 1: Использование pandas
one_hot_encoded_pandas = pd.get_dummies(data)
print("One-Hot Encoding с помощью pandas для нескольких категорий:")
print(one_hot_encoded_pandas)

# Метод 2: Использование scikit-learn
encoder = OneHotEncoder(sparse_output=False)
one_hot_encoded_sklearn = encoder.fit_transform(data)
print("\nOne-Hot Encoding с помощью scikit-learn для нескольких категорий:")
print(one_hot_encoded_sklearn)
```





# **3. Bag of Words (BoW): Математические основы**

## **3.1. Что такое Bag of Words (BoW)?**

Bag of Words (BoW) — это метод векторизации текста, который представляет документ как мешок слов без учета порядка их следования. Каждый документ кодируется в виде вектора, где каждая компонента соответствует частоте встречаемости определенного слова из заранее созданного словаря.

Основная идея BoW заключается в том, что семантика документа может быть выражена через частоту использования различных слов. Этот подход игнорирует грамматическую структуру и синтаксис, фокусируясь только на содержании.



## **3.2. Создание словаря слов**

Словарь — это множество уникальных слов, которые встречаются во всем корпусе текстов. Процесс создания словаря можно формализовать следующим образом:

Пусть $ D = \{d_1, d_2, \dots, d_m\} $ — набор документов, где каждый документ $ d_i $ является последовательностью слов:
$$
d_i = \{w_{i1}, w_{i2}, \dots, w_{in_i}\},
$$
где $ n_i $ — количество слов в документе $ d_i $.

Словарь $ V $ строится как объединение всех уникальных слов из всех документов:
$$
V = \bigcup_{i=1}^m \{w_{i1}, w_{i2}, \dots, w_{in_i}\}.
$$

Таким образом, размер словаря $ |V| = n $ равен количеству уникальных слов во всем корпусе.



## **3.3. Построение вектора на основе частоты встречаемости слов**

Каждый документ $ d_i $ преобразуется в вектор $ \mathbf{v}_i \in \mathbb{R}^n $, где $ n = |V| $ — размер словаря. Компоненты вектора $ \mathbf{v}_i $ соответствуют частотам встречаемости слов из словаря $ V $ в документе $ d_i $. Формально, если $ f(w, d_i) $ обозначает частоту слова $ w $ в документе $ d_i $, то вектор $ \mathbf{v}_i $ определяется как:
$$
\mathbf{v}_i = [f(w_1, d_i), f(w_2, d_i), \dots, f(w_n, d_i)],
$$
где $ w_1, w_2, \dots, w_n $ — слова из словаря $ V $.

### **Пример математического представления**
Пусть словарь содержит три уникальных слова: $ V = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}\} $. Если документ $ d_1 = \{\text{"кошка"}, \text{"собака"}, \text{"дерево"}, \text{"кошка"}\} $, то его вектор будет выглядеть так:
- Частота "кошка" = 2,
- Частота "собака" = 1,
- Частота "дерево" = 1.

Следовательно:
$$
\mathbf{v}_1 = [2, 1, 1].
$$



## **3.4. Математическая интерпретация корпуса текстов**

Если corpus состоит из $ m $ документов, то весь корпус можно представить в виде матрицы $ M \in \mathbb{R}^{m \times n} $, где:
- $ m $ — количество документов,
- $ n $ — размер словаря.

Каждая строка матрицы $ M $ соответствует одному документу, а каждый столбец — одной уникальной категории (слову).

Матрица $ M $ называется **матрицей терм-документ** (Term-Document Matrix). Ее элементы $ M_{ij} $ представляют собой частоту слова $ w_j $ в документе $ d_i $:
$$
M_{ij} = f(w_j, d_i).
$$



## **3.5. Преобразование текста с помощью BoW**

Процесс преобразования текста с помощью BoW можно разбить на несколько этапов:

1. **Токенизация**: Разбиение текста на отдельные слова (токены).
2. **Лемматизация/стемминг**: Приведение слов к нормальной форме для уменьшения размерности словаря.
3. **Удаление стоп-слов**: Исключение часто встречающихся слов (например, "и", "в", "на"), которые не несут смысловой нагрузки.
4. **Подсчет частот**: Подсчет количества вхождений каждого слова из словаря в документ.
5. **Нормализация (необязательно)**: Приведение векторов к единой шкале (например, деление на общее количество слов в документе).



## **3.6. Преимущества BoW**

1. **Простота реализации**: BoW легко понять и реализовать.
2. **Эффективность для многих задач**: Хорошо работает для задач классификации текстов, таких как спам-фильтрация или анализ тональности.
3. **Фиксированная размерность**: Все документы преобразуются в векторы одинаковой длины, что удобно для алгоритмов машинного обучения.



## **3.7. Недостатки BoW**

1. **Игнорирование порядка слов**: BoW не учитывает грамматическую структуру и синтаксис текста, что может привести к потере важной информации.
2. **Высокая размерность**: Размер словаря может быть очень большим, особенно для больших корпусов текстов, что увеличивает объем данных и замедляет вычисления.
3. **Разреженность векторов**: Большинство компонент вектора часто равны нулю, так как большинство слов из словаря могут не встречаться в конкретном документе.
4. **Отсутствие учета контекста**: BoW не учитывает контекст использования слов, что ограничивает его способность отражать семантические отношения между словами.



# **3. Bag of Words (BoW): Конкретные числовые примеры**

В предыдущем разделе мы рассмотрели математические основы метода Bag of Words (BoW). Теперь давайте разберем конкретные числовые примеры, чтобы лучше понять процесс преобразования текстов в числовые векторы.



## **Пример 1: Создание словаря и векторизация одного документа**

Пусть у нас есть следующий документ:
$$
d_1 = \{\text{"кошка"}, \text{"спит"}, \text{"на"}, \text{"столе"}, \text{"кошка"}\}.
$$

### **Шаг 1: Создание словаря**
Сначала создаем словарь уникальных слов из документа $ d_1 $. Уникальные слова:
$$
V = \{\text{"кошка"}, \text{"спит"}, \text{"на"}, \text{"столе"}\}.
$$

Размер словаря $ |V| = 4 $.

### **Шаг 2: Подсчет частот встречаемости**
Для каждого слова из словаря подсчитываем, сколько раз оно встречается в документе $ d_1 $:
- "кошка" → 2,
- "спит" → 1,
- "на" → 1,
- "столе" → 1.

Таким образом, вектор для документа $ d_1 $ будет выглядеть так:
$$
\mathbf{v}_1 = [2, 1, 1, 1].
$$



## **Пример 2: Векторизация нескольких документов**

Теперь рассмотрим корпус из двух документов:
$$
D = \{d_1, d_2\},
$$
где:
$$
d_1 = \{\text{"кошка"}, \text{"спит"}, \text{"на"}, \text{"столе"}, \text{"кошка"}\},
$$
$$
d_2 = \{\text{"собака"}, \text{"играет"}, \text{"во"}, \text{"дворе"}\}.
$$

### **Шаг 1: Создание общего словаря**
Общий словарь $ V $ создается как объединение всех уникальных слов из обоих документов:
$$
V = \{\text{"кошка"}, \text{"спит"}, \text{"на"}, \text{"столе"}, \text{"собака"}, \text{"играет"}, \text{"во"}, \text{"дворе"}\}.
$$

Размер словаря $ |V| = 8 $.

### **Шаг 2: Подсчет частот встречаемости для каждого документа**

#### Для документа $ d_1 $:
- "кошка" → 2,
- "спит" → 1,
- "на" → 1,
- "столе" → 1,
- "собака" → 0,
- "играет" → 0,
- "во" → 0,
- "дворе" → 0.

Вектор для $ d_1 $:
$$
\mathbf{v}_1 = [2, 1, 1, 1, 0, 0, 0, 0].
$$

#### Для документа $ d_2 $:
- "кошка" → 0,
- "спит" → 0,
- "на" → 0,
- "столе" → 0,
- "собака" → 1,
- "играет" → 1,
- "во" → 1,
- "дворе" → 1.

Вектор для $ d_2 $:
$$
\mathbf{v}_2 = [0, 0, 0, 0, 1, 1, 1, 1].
$$

### **Шаг 3: Матрица терм-документ**
Объединяем все векторы в матрицу $ M $, где каждая строка соответствует одному документу, а каждый столбец — одному слову из словаря:

$$
M =
\begin{bmatrix}
2 & 1 & 1 & 1 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 1 & 1 & 1 & 1
\end{bmatrix}.
$$

Здесь:
- Количество строк ($ m = 2 $) равно количеству документов,
- Количество столбцов ($ n = 8 $) равно размеру словаря.



## **Пример 3: Нормализация векторов**

Нормализация используется для приведения векторов к единой шкале. Один из популярных способов нормализации — деление каждой компоненты на общее количество слов в документе.

#### Для документа $ d_1 $:
Общее количество слов в $ d_1 $: $ N_1 = 5 $.
Нормализованный вектор:
$$
\mathbf{v}_1^{\text{norm}} = \left[\frac{2}{5}, \frac{1}{5}, \frac{1}{5}, \frac{1}{5}, 0, 0, 0, 0\right] = [0.4, 0.2, 0.2, 0.2, 0, 0, 0, 0].
$$

#### Для документа $ d_2 $:
Общее количество слов в $ d_2 $: $ N_2 = 4 $.
Нормализованный вектор:
$$
\mathbf{v}_2^{\text{norm}} = \left[0, 0, 0, 0, \frac{1}{4}, \frac{1}{4}, \frac{1}{4}, \frac{1}{4}\right] = [0, 0, 0, 0, 0.25, 0.25, 0.25, 0.25].
$$



## **Пример 4: Разреженность векторов**

Разреженность возникает, когда большинство компонент вектора равны нулю. Рассмотрим более крупный словарь:
$$
V = \{\text{"кошка"}, \text{"спит"}, \text{"на"}, \text{"столе"}, \text{"собака"}, \text{"играет"}, \text{"во"}, \text{"дворе"}, \text{"дерево"}, \text{"лист"}\}.
$$

Теперь размер словаря $ |V| = 10 $. Для документа $ d_1 $:
$$
\mathbf{v}_1 = [2, 1, 1, 1, 0, 0, 0, 0, 0, 0].
$$

Здесь только 4 из 10 компонент отличаются от нуля, что демонстрирует проблему разреженности.



# **Реализация Bag of Words (BoW) на Python**

Мы можем реализовать метод Bag of Words (BoW) с использованием библиотеки `scikit-learn`. Библиотека предоставляет класс `CountVectorizer`, который автоматически создает словарь и преобразует текстовые данные в числовые векторы.



## **Пример: Реализация BoW для корпуса текстов**

Пусть у нас есть следующий набор документов:
```python
corpus = [
    "кошка спит на столе кошка",
    "собака играет во дворе",
    "дерево растет возле дома"
]




```python
# Импортируем необходимые библиотеки
from sklearn.feature_extraction.text import CountVectorizer  # Для векторизации текста
import pandas as pd  # Для удобного представления результатов в виде таблицы

# Определяем корпус текстов (набор документов)
corpus = [
    "кошка спит на столе кошка",  # Документ 1
    "собака играет во дворе",     # Документ 2
    "дерево растет возле дома"    # Документ 3
]

# Создаем объект CountVectorizer
# Этот класс автоматически создает словарь и преобразует текстовые данные в числовые векторы
vectorizer = CountVectorizer()

# Применяем fit_transform для создания словаря и преобразования текстов в матрицу терм-документ
# Метод fit_transform выполняет два действия:
# 1. fit: создает словарь уникальных слов из всего корпуса
# 2. transform: преобразует каждый документ в числовой вектор на основе частот встречаемости слов
X = vectorizer.fit_transform(corpus)

# Получаем список слов из словаря
# Метод get_feature_names_out() возвращает массив уникальных слов, которые встречаются в корпусе
feature_names = vectorizer.get_feature_names_out()
print("Словарь:", feature_names)  # Выводим словарь

# Преобразуем результат в DataFrame для лучшего представления
# X.toarray() преобразует разреженную матрицу в обычную numpy-матрицу
df_bow = pd.DataFrame(X.toarray(), columns=feature_names)
print("\nМатрица терм-документ:")  # Выводим заголовок
print(df_bow)  # Выводим матрицу терм-документ

# Дополнительные опции (необязательно)
# 1. Удаление стоп-слов
# Можно исключить часто встречающиеся слова (например, "и", "в", "на") с помощью параметра stop_words
vectorizer_with_stop_words = CountVectorizer(stop_words=["на", "во", "возле"])
X_without_stop_words = vectorizer_with_stop_words.fit_transform(corpus)
df_bow_without_stop_words = pd.DataFrame(
    X_without_stop_words.toarray(),
    columns=vectorizer_with_stop_words.get_feature_names_out()
)
print("\nМатрица терм-документ без стоп-слов:")
print(df_bow_without_stop_words)

# 2. Нормализация
# Нормализацию можно выполнить после получения матрицы, например, путем деления каждой строки на сумму ее элементов
normalized_X = X.toarray() / X.sum(axis=1).reshape(-1, 1)  # Нормализуем каждую строку
df_normalized = pd.DataFrame(normalized_X, columns=vectorizer.get_feature_names_out())
print("\nНормализованная матрица терм-документ:")
print(df_normalized)
```





