# One hot encoding

Кодирование "one-hot" (однозначное кодирование) - это метод представления категориальных данных, таких как слова, символы или другие элементы, в виде бинарных векторов, где каждый элемент вектора соответствует одному элементу категории. В контексте обработки естественного языка (NLP), one-hot encoding используется для представления слов, символов или других элементов текста.

Принцип работы one-hot encoding:

1. Создается словарь (набор всех уникальных слов или символов), который будет использоваться для кодирования текста.

2. Для каждого уникального элемента из словаря создается бинарный вектор фиксированной длины, где все элементы инициализируются нулями.

3. Для каждого слова, символа или элемента текста создается соответствующий вектор, и только элемент, соответствующий этому слову или символу в словаре, устанавливается в 1, остальные элементы остаются равными 0.

Пример one-hot encoding в NLP:

Допустим, у нас есть словарь из следующих слов: ["я", "люблю", "NLP"]. Если у нас есть фраза "Я люблю NLP", то one-hot encoding для этой фразы будет выглядеть следующим образом:

- "я" будет представлено как [1, 0, 0] (первый элемент вектора равен 1, остальные равны 0).
- "люблю" будет представлено как [0, 1, 0].
- "NLP" будет представлено как [0, 0, 1].

По сути, каждое слово, символ или элемент в тексте кодируется в виде уникального бинарного вектора, что позволяет компьютеру работать с текстовыми данными, представляя их в числовой форме. Однако one-hot encoding имеет ограничения, особенно в случае больших словарей, так как размер векторов может стать очень большим, что может привести к проблемам с вычислительной эффективностью. Тем не менее, это полезный базовый метод для начала работы с текстовыми данными в NLP.


Преимущества One-Hot Encoding в NLP:

1. **Простота понимания и применения**: One-hot encoding - это простой метод, который легко понимать и реализовывать. Он не требует сложных математических операций и подходит для начинающих в области NLP.

2. **Интерпретируемость**: One-hot векторы явно представляют наличие или отсутствие каждого элемента словаря, что делает их интерпретируемыми.

3. **Инвариантность к порядку**: Порядок слов в тексте не имеет значения при использовании one-hot encoding, потому что каждое слово представлено отдельным бинарным вектором.

Недостатки One-Hot Encoding в NLP:

1. **Размерность векторов**: One-hot encoding приводит к большой размерности векторов, особенно если словарь (набор уникальных слов или символов) большой. Это может привести к высокой вычислительной нагрузке и использованию большого объема памяти.

2. **Отсутствие семантической информации**: Векторы one-hot не содержат семантической информации о словах. Они не учитывают сходство между словами, что может снижать качество некоторых NLP-задач, таких как машинный перевод и анализ тональности.

3. **Разреженность данных**: Векторы one-hot обычно являются разреженными, так как большинство элементов вектора равны нулю. Это увеличивает сложность хранения и обработки данных.

4. **Невозможность обобщения на новые данные**: Если встречается новое слово, которого нет в исходном словаре, его нельзя представить в виде one-hot вектора, что может создать проблемы при обработке неизвестных слов.

5. **Не учитывает смысловые отношения**: One-hot encoding не учитывает семантические отношения между словами, такие как синонимы или антонимы.

Для решения некоторых из этих недостатков могут быть использованы более продвинутые методы кодирования, такие как векторные представления слов (word embeddings), включая Word2Vec, GloVe и FastText, которые способны учить семантические отношения между словами и снижать размерность данных.

In [1]:
from sklearn.preprocessing import LabelBinarizer

# Пример списка слов
word_list = ["я", "люблю", "NLP", "в", "Python"]

# Создаем объект OneHotEncoder
encoder = LabelBinarizer()

# Преобразуем список слов в бинарные векторы
one_hot_vectors = encoder.fit_transform(word_list)

# Выводим результат
for word, one_hot_vector in zip(word_list, one_hot_vectors):
    print(f"{word}: {one_hot_vector}")


я: [0 0 0 0 1]
люблю: [0 0 0 1 0]
NLP: [1 0 0 0 0]
в: [0 0 1 0 0]
Python: [0 1 0 0 0]


# Bag of words

Модель "мешок слов" (Bag of Words, BoW) - это один из базовых методов представления текстовых данных в обработке естественного языка (NLP). Она представляет текст как неупорядоченный набор слов, игнорируя порядок слов и учитывая только их вхождение в текст. Эта концепция имеет несколько ключевых аспектов:

1. **Игнорирование порядка слов**: Модель BoW не учитывает порядок слов в тексте. Она считает, что структура и порядок слов не имеют значения и что каждое слово является независимым от остальных.

2. **Создание словаря**: Прежде чем использовать модель BoW, необходимо создать словарь всех уникальных слов, которые могут встречаться в текстах. Этот словарь будет использоваться для создания векторов признаков.

3. **Подсчет вхождений слов**: Для каждого текста в корпусе подсчитывается, сколько раз каждое слово из словаря встречается в данном тексте.

4. **Представление текстов в виде векторов**: Каждый текст представляется в виде вектора фиксированной длины, где каждый элемент вектора соответствует слову из словаря, а его значение - количеству вхождений этого слова в текст.

Пример:
Предположим, у нас есть следующие тексты:
- "Я люблю программирование."
- "Программирование интересно."
- "Программирование - это будущее."

Сначала создается словарь всех уникальных слов: ["Я", "люблю", "программирование", "интересно", "это", "будущее"].

Затем каждый текст представляется в виде вектора BoW:
- "Я люблю программирование." станет [1, 1, 1, 0, 0, 0].
- "Программирование интересно." станет [0, 0, 1, 1, 0, 0].
- "Программирование - это будущее." станет [0, 0, 1, 0, 1, 1].

Преимущества и недостатки модели BoW:

Преимущества:
- Простота и понятность.
- Эффективность для многих задач, таких как классификация текстов.
- Позволяет работать с текстами в числовой форме, что необходимо для многих алгоритмов машинного обучения.

Недостатки:
- Не учитывает семантические отношения между словами.
- Разреженность данных: векторы BoW часто имеют много нулей, что увеличивает вычислительную сложность.
- Потеря информации о порядке слов.
- Не подходит для задач, где важен контекст и семантика, таких как машинный перевод.

Модель BoW является важным концептуальным инструментом в NLP и обычно используется как базовая модель для более сложных методов, таких как TF-IDF и векторные представления слов (Word Embeddings).

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

# Пример корпуса текстов
corpus = [
    "Это пример текста 1.",
    "Это еще один текст.",
    "Тексты могут быть короткими или длинными."
]

# Создаем объект CountVectorizer
vectorizer = CountVectorizer()

# Преобразуем корпус в матрицу Bag of Words
X = vectorizer.fit_transform(corpus)

# Получаем список слов (терминов)
words = vectorizer.get_feature_names_out()

# Выводим матрицу Bag of Words
print("Матрица Bag of Words:")
print(X.toarray())

# Выводим список слов
print("\nСписок слов:")
print(words)


Матрица Bag of Words:
[[0 0 0 0 0 0 0 1 0 1 0 1]
 [0 0 1 0 0 0 1 0 1 0 0 1]
 [1 1 0 1 1 1 0 0 0 0 1 0]]

Список слов:
['быть' 'длинными' 'еще' 'или' 'короткими' 'могут' 'один' 'пример' 'текст'
 'текста' 'тексты' 'это']


# TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) - это статистическая мера, используемая в обработке естественного языка (NLP) для оценки важности слова в документе относительно корпуса документов. TF-IDF представляет собой комбинацию двух компонентов:

1. **TF (Term Frequency)** - Частота термина: это мера, которая оценивает, насколько часто слово встречается в данном документе. Она измеряет, насколько слово важно для конкретного документа.

2. **IDF (Inverse Document Frequency)** - Обратная частота документа: это мера, которая оценивает, насколько слово уникально для всего корпуса документов. Она измеряет, насколько слово важно в контексте всего корпуса.

Комбинируя TF и IDF, мы можем вычислить TF-IDF для каждого слова в документе. Формула для вычисления TF-IDF для слова `w` в документе `d` обычно выглядит следующим образом:

```
TF-IDF(w, d) = TF(w, d) * IDF(w)
```

Где:
- `TF(w, d)` - Частота термина (Term Frequency) слова `w` в документе `d`. Это может быть просто количество вхождений слова в документе или нормализованное значение, например, частота встречаемости слова в документе относительно общей длины документа.
- `IDF(w)` - Обратная частота документа (Inverse Document Frequency) слова `w`. Это значение вычисляется как логарифм обратного отношения общего числа документов в корпусе к числу документов, содержащих слово `w`. Формула может быть слегка варьирована для учета различных вариантов.

Преимущества TF-IDF в NLP:
- Помогает выделить важные слова в документах.
- Учитывает частоту и уникальность слова.
- Хорошо работает для выявления ключевых слов и тематического моделирования.
- Используется для ранжирования документов в поисковых системах.

Недостатки TF-IDF в NLP:
- Не учитывает семантику слов.
- Не учитывает порядок слов в тексте.
- Не обрабатывает синонимы и многозначные слова.

TF-IDF - это полезная мера для анализа и обработки текстовых данных, и она часто используется в задачах информационного поиска, классификации текстов и кластеризации документов.

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Пример корпуса текстов
corpus = [
    "Это пример текста 1.",
    "Это еще один текст.",
    "Тексты могут быть короткими или длинными."
]

# Создаем объект TfidfVectorizer
vectorizer = TfidfVectorizer()

# Преобразуем корпус в TF-IDF матрицу
tfidf_matrix = vectorizer.fit_transform(corpus)

# Получаем список слов (терминов)
words = vectorizer.get_feature_names_out()

# Выводим TF-IDF матрицу
print("TF-IDF Матрица:")
print(tfidf_matrix.toarray())

# Выводим список слов
print("\nСписок слов:")
print(words)


TF-IDF Матрица:
[[0.         0.         0.         0.         0.         0.
  0.         0.62276601 0.         0.62276601 0.         0.4736296 ]
 [0.         0.         0.52863461 0.         0.         0.
  0.52863461 0.         0.52863461 0.         0.         0.40204024]
 [0.40824829 0.40824829 0.         0.40824829 0.40824829 0.40824829
  0.         0.         0.         0.         0.40824829 0.        ]]

Список слов:
['быть' 'длинными' 'еще' 'или' 'короткими' 'могут' 'один' 'пример' 'текст'
 'текста' 'тексты' 'это']


In [6]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score

# Загружаем набор данных "20 Newsgroups"
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

# Разделяем данные на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target, test_size=0.2, random_state=42)

# Создаем TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(max_features=5000)

# Преобразуем текст в векторы TF-IDF
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Создаем и обучаем модель логистической регрессии
logistic_regression = LogisticRegression(max_iter=10, random_state=42)
logistic_regression.fit(X_train_tfidf, y_train)

# Предсказываем классы для тестового набора данных
y_pred = logistic_regression.predict(X_test_tfidf)

# Оцениваем модель с использованием метрики F1-score
f1 = f1_score(y_test, y_pred, average='weighted')
print(f"F1-score модели: {f1}")

F1-score модели: 0.5937747194432215


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


BM25

BM25 (Best Matching 25) - это вероятностная модель ранжирования для информационного поиска и анализа текста. BM25 является улучшенной версией более ранней модели BM25, которая была представлена в 1994 году. BM25 используется для оценки релевантности документов по отношению к запросу пользователя в системах поиска, включая поисковые движки, и для анализа текстовых данных.

Основные концепции BM25:

1. **Веса терминов**: BM25 учитывает веса терминов (слов) в запросе и документе. Веса терминов определяют, насколько важен каждый термин для релевантности документа запросу.

2. **Длина документа**: BM25 учитывает длину документа. Это означает, что более длинные документы могут иметь более низкие оценки релевантности, если они содержат много терминов, которые не совпадают с запросом.

3. **IDF (Inverse Document Frequency)**: BM25 использует обратную документную частоту (IDF) для учета уникальности терминов в корпусе документов. Термины, которые встречаются редко в корпусе, имеют более высокие веса.

4. **Параметры ранжирования**: BM25 имеет несколько параметров ранжирования, таких как параметр "k" и параметр "b", которые можно настроить под конкретные задачи и типы данных.

5. **Вероятностное ранжирование**: BM25 представляет собой вероятностную модель ранжирования, которая оценивает вероятность, что документ будет релевантным для запроса.

Преимущества BM25 в NLP:

- BM25 является одним из наиболее эффективных алгоритмов ранжирования для поисковых систем.
- Он хорошо работает с короткими и длинными текстами.
- Учитывает уникальность и веса терминов, что делает его более точным по сравнению с некоторыми более простыми моделями.

Недостатки BM25 в NLP:

- Требует настройки параметров для оптимальной производительности.
- Может быть вычислительно затратным при обработке больших корпусов документов.
- Не учитывает семантические отношения между словами.

BM25 широко используется в поисковых системах и информационном поиске для ранжирования и выдачи наиболее релевантных документов для пользовательских запросов.

\begin{equation}
\text{BM25}(D, Q) = \sum_{i=1}^{n} \frac{{\text{IDF}(q_i) \cdot f(q_i, D) \cdot (k_1 + 1)}}{{f(q_i, D) + k_1 \cdot \left(1 - b + b \cdot \frac{{\text{dl}(D)}}{{\text{avgdl}}}\right)}}
\end{equation}

Формула BM25 (Best Matching 25)ормуле:

- BM25(D, Q) - значение BM25 для документа D и запроса Q.
- n - количество уникальных слов в запросе Q.
- q_i - i-е уникальное слово в запросе Q.
- IDF(q_i) - обратная документная частота (inverse document frequency) для слова q_i.
- f(q_i, D) - частота слова q_i в документе D.
- k_1 - параметр, обычно выбирается в диапазоне от 1.2 до 2.0.
- b - параметр, обычно выбирается в диапазоне от 0.0 до 1.0.
- dl(D) - длина документа D (количество слов в документе).
- avgdl - средняя длина документа в коллекции.

Вы можете вставить эту формулу в свой LaTeX-документ, обеспечив правильное форматирование и использование необходимых пакетов для математических выражений.

In [1]:
from rank_bm25 import BM25Okapi

# Пример корпуса текстов
corpus = [
    "Это пример текст 1.",
    "Это еще один текст",
    "текст могут быть короткими или длинными."
]

# Разделите тексты на слова (токенизация)
tokenized_corpus = [text.split() for text in corpus]

# Создайте модель BM25
bm25 = BM25Okapi(tokenized_corpus)

# Запрос
query = "пример текст"

# Токенизируйте запрос
query_tokens = query.split()

# Вычислите BM25 для запроса и корпуса
scores = bm25.get_scores(query_tokens)

# Выведите результаты (релевантность документов по запросу)
for i, score in enumerate(scores):
    print(f"Документ {i + 1}({corpus[i]}): BM25 Score = {score:.3f}")


Документ 1(Это пример текст 1.): BM25 Score = 0.598
Документ 2(Это еще один текст): BM25 Score = 0.052
Документ 3(текст могут быть короткими или длинными.): BM25 Score = 0.043
