# Виды токенизации в nlp


Токенизация в обработке естественного языка (NLP) — это процесс разделения текста на отдельные элементы, называемые токенами. Токены могут быть словами, фразами, символами или даже подстроками, в зависимости от задачи и целей обработки текста. Вот некоторые виды токенизации в NLP:

1. **Токенизация по словам (Word Tokenization)**: Этот вид токенизации разделяет текст на слова. Например, фраза "Привет, мир!" будет разделена на токены: ["Привет", ",", "мир", "!"].

2. **Токенизация по фразам (Phrase Tokenization)**: В некоторых случаях может потребоваться разделить текст на более крупные фрагменты, чем слова, например, на фразы или предложения.

3. **Символьная токенизация (Character Tokenization)**: В этом случае текст разделяется на отдельные символы. Это может быть полезно для некоторых задач, таких как сегментация писем в адреса электронной почты.

4. **Субсловная (Subword) токенизация**: Этот вид токенизации разбивает текст на субслова или морфемы, что полезно для работы с языками, где слова образуются путем комбинации корней и аффиксов. Примером может служить BPE (Byte-Pair Encoding) или токенизация на основе WordPiece.

5. **Токенизация на основе применения правил (Rule-based Tokenization)**: В этом случае используются правила для определения, какие символы служат разделителями токенов. Например, разделение по пробелам или знакам пунктуации.

6. **Токенизация на основе машинного обучения (Machine Learning-based Tokenization)**: В этом случае алгоритмы машинного обучения обучаются на больших объемах текста для автоматического выделения токенов. Примером может служить токенизация на основе рекуррентных нейронных сетей или Transformer-моделей.

7. **Токенизация на уровне символов и подсимвольных элементов (Byte-level and Sub-byte Tokenization)**: Для определенных задач, таких как обработка байтовых данных или кодирование в Unicode, текст может быть разделен на байты, символы или их части (например, биты).

8. **Многоуровневая токенизация (Multi-level Tokenization)**: В некоторых случаях применяются несколько уровней токенизации, например, сначала текст разделяется на слова, а затем каждое слово разделяется на подслова.

Выбор определенного метода токенизации зависит от конкретной задачи, языка и целей анализа текста. Каждый вид токенизации имеет свои преимущества и недостатки, и выбор должен быть сделан с учетом контекста и требований вашего NLP-проекта.

In [1]:
# В Python для токенизации текста по словам вы можете использовать различные библиотеки, такие как NLTK (Natural Language Toolkit) или spaCy, 
# или же просто разбить строку на слова с помощью методов строк. Вот примеры токенизации по словам с использованием разных методов:

# 1. **Разделение строки с помощью метода `split()`:**

text = "Привет, мир!"
tokens = text.split()  # Разделяем текст по пробелам
print(tokens)

['Привет,', 'мир!']


In [2]:
# 2. **Использование библиотеки NLTK:**
# Для этого вам нужно будет установить библиотеку NLTK, если она еще не установлена:

import nltk
# nltk.download('punkt')
from nltk.tokenize import word_tokenize

text = "Привет, мир!"
tokens = word_tokenize(text, language='russian')  # Токенизация по словам с помощью NLTK
print(tokens)

['Привет', ',', 'мир', '!']


In [3]:
# 3. **Использование библиотеки spaCy:**
# Для использования spaCy также потребуется установить библиотеку и загрузить соответствующую модель:


import spacy
import spacy.cli

# spacy.cli.download("ru_core_news_sm")
nlp = spacy.load("ru_core_news_sm")

text = "Привет, мир!"
doc = nlp(text)
tokens = [token.text for token in doc]  # Токенизация по словам с помощью spaCy
print(tokens)

['Привет', ',', 'мир', '!']


In [11]:
# Пример токенизации текста не по словам, а по фразам (предложениям) 
# с использованием библиотеки NLTK в Python:

import nltk

# Загрузим предобученный токенизатор для разбиения текста на предложения
# nltk.download('punkt')

from nltk.tokenize import sent_tokenize

text = "Привет, мир! Как дела? Это пример токенизации текста на предложения."
sentences = sent_tokenize(text, language='russian')  # Токенизация на предложения
print(sentences)

['Привет, мир!', 'Как дела?', 'Это пример токенизации текста на предложения.']


In [5]:
text = "Пример токенизации по символам"
tokens = list(text)  # Разделяем текст на символы
print(tokens)

['П', 'р', 'и', 'м', 'е', 'р', ' ', 'т', 'о', 'к', 'е', 'н', 'и', 'з', 'а', 'ц', 'и', 'и', ' ', 'п', 'о', ' ', 'с', 'и', 'м', 'в', 'о', 'л', 'а', 'м']


In [6]:
from tokenizers import CharBPETokenizer

tokenizer = CharBPETokenizer()

tokenizer.train([ "corpus.txt", ])

tokenizer.save("bpe_tokenizer.json")

encoded = tokenizer.encode("Чат для NLP")
print(encoded)

Encoding(num_tokens=5, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])


# Виды нормализации в nlp

Нормализация в обработке естественного языка (NLP) - это процесс приведения текста к стандартизированному или упрощенному виду, который облегчает анализ и сравнение текстов. Вот некоторые виды нормализации в NLP:

1. **Приведение к нижнему регистру (Lowercasing)**: Приведение всех символов в тексте к нижнему регистру. Например, "Привет" и "привет" будут считаться одним и тем же словом после нормализации.

2. **Удаление пунктуации**: Удаление знаков препинания, символов и специальных символов из текста. Например, "Привет!" станет "Привет".

3. **Удаление стоп-слов (Stop Word Removal)**: Удаление часто встречающихся слов, которые не несут смысловой нагрузки (стоп-слова), таких как "и", "в", "с" и т. д.

4. **Стемминг (Stemming)**: Процесс обрезания аффиксов (окончаний) слов для приведения их к их базовой (словарной) форме. Например, слова "бегу", "бежит" и "бегут" могут быть преобразованы к основе "бег".

5. **Лемматизация (Lemmatization)**: Процесс приведения слов к их леммам, то есть к их базовым словарным формам. В отличие от стемминга, лемматизация учитывает грамматические правила и обеспечивает более точное приведение слов.

6. **Удаление лишних пробелов**: Удаление дополнительных пробелов между словами и в начале и конце текста.

7. **Замена чисел и дат**: Замена чисел и дат на специальные символы или токены, чтобы сохранить смысл текста, но упростить его структуру.

8. **Коррекция опечаток (Spelling Correction)**: Процесс исправления опечаток и орфографических ошибок в тексте.

9. **Удаление HTML-тегов**: В случае обработки веб-страниц, удаление HTML-тегов для извлечения только текстового содержания.

10. **Обработка сокращений и аббревиатур**: Замена сокращений и аббревиатур на полные формы или наоборот.

11. **Удаление специфичных символов и URL**: Удаление символов, не имеющих отношения к тексту, и URL-адресов.

12. **Нормализация дат и времени**: Приведение дат и времени к стандартному формату.

13. **Удаление символов регулярных выражений**: Удаление символов, соответствующих определенным шаблонам с использованием регулярных выражений.

14. **Перевод символов в транслит**: Преобразование текста на одном языке в транслитерацию другого языка.

Выбор конкретных методов нормализации зависит от задачи и требований проекта. Нормализация текста может быть важной частью предварительной обработки данных в NLP, чтобы улучшить качество анализа и моделирования.

In [7]:
from nltk.stem import SnowballStemmer

# Выберите язык для стеммера, например, русский
stemmer = SnowballStemmer("russian")

word = "бегу"
stemmed_word = stemmer.stem(word)
print(stemmed_word)

word = "сижу"
stemmed_word = stemmer.stem(word)
print(stemmed_word)

бег
сиж


In [10]:
import pymorphy3

# Создайте объект лемматизатора для русского языка
morph = pymorphy3.MorphAnalyzer()

word = "бегу"
lemma = morph.parse(word)[0].normal_form
print(lemma)

word = "сижу"
lemma = morph.parse(word)[0].normal_form
print(lemma)

бег
сидеть


# One hot encoding

Кодирование "one-hot" (однозначное кодирование) - это метод представления категориальных данных, таких как слова, символы или другие элементы, в виде бинарных векторов, где каждый элемент вектора соответствует одному элементу категории. В контексте обработки естественного языка (NLP), one-hot encoding используется для представления слов, символов или других элементов текста.

Принцип работы one-hot encoding:

1. Создается словарь (набор всех уникальных слов или символов), который будет использоваться для кодирования текста.

2. Для каждого уникального элемента из словаря создается бинарный вектор фиксированной длины, где все элементы инициализируются нулями.

3. Для каждого слова, символа или элемента текста создается соответствующий вектор, и только элемент, соответствующий этому слову или символу в словаре, устанавливается в 1, остальные элементы остаются равными 0.

Пример one-hot encoding в NLP:

Допустим, у нас есть словарь из следующих слов: ["я", "люблю", "NLP"]. Если у нас есть фраза "Я люблю NLP", то one-hot encoding для этой фразы будет выглядеть следующим образом:

- "я" будет представлено как [1, 0, 0] (первый элемент вектора равен 1, остальные равны 0).
- "люблю" будет представлено как [0, 1, 0].
- "NLP" будет представлено как [0, 0, 1].

По сути, каждое слово, символ или элемент в тексте кодируется в виде уникального бинарного вектора, что позволяет компьютеру работать с текстовыми данными, представляя их в числовой форме. Однако one-hot encoding имеет ограничения, особенно в случае больших словарей, так как размер векторов может стать очень большим, что может привести к проблемам с вычислительной эффективностью. Тем не менее, это полезный базовый метод для начала работы с текстовыми данными в NLP.


Преимущества One-Hot Encoding в NLP:

1. **Простота понимания и применения**: One-hot encoding - это простой метод, который легко понимать и реализовывать. Он не требует сложных математических операций и подходит для начинающих в области NLP.

2. **Интерпретируемость**: One-hot векторы явно представляют наличие или отсутствие каждого элемента словаря, что делает их интерпретируемыми.

3. **Инвариантность к порядку**: Порядок слов в тексте не имеет значения при использовании one-hot encoding, потому что каждое слово представлено отдельным бинарным вектором.

Недостатки One-Hot Encoding в NLP:

1. **Размерность векторов**: One-hot encoding приводит к большой размерности векторов, особенно если словарь (набор уникальных слов или символов) большой. Это может привести к высокой вычислительной нагрузке и использованию большого объема памяти.

2. **Отсутствие семантической информации**: Векторы one-hot не содержат семантической информации о словах. Они не учитывают сходство между словами, что может снижать качество некоторых NLP-задач, таких как машинный перевод и анализ тональности.

3. **Разреженность данных**: Векторы one-hot обычно являются разреженными, так как большинство элементов вектора равны нулю. Это увеличивает сложность хранения и обработки данных.

4. **Невозможность обобщения на новые данные**: Если встречается новое слово, которого нет в исходном словаре, его нельзя представить в виде one-hot вектора, что может создать проблемы при обработке неизвестных слов.

5. **Не учитывает смысловые отношения**: One-hot encoding не учитывает семантические отношения между словами, такие как синонимы или антонимы.

Для решения некоторых из этих недостатков могут быть использованы более продвинутые методы кодирования, такие как векторные представления слов (word embeddings), включая Word2Vec, GloVe и FastText, которые способны учить семантические отношения между словами и снижать размерность данных.

In [12]:
from sklearn.preprocessing import LabelBinarizer

# Пример списка слов
word_list = ["я", "люблю", "NLP", "в", "Python"]

# Создаем объект OneHotEncoder
encoder = LabelBinarizer()

# Преобразуем список слов в бинарные векторы
one_hot_vectors = encoder.fit_transform(word_list)

# Выводим результат
for word, one_hot_vector in zip(word_list, one_hot_vectors):
    print(f"{word}: {one_hot_vector}")


я: [0 0 0 0 1]
люблю: [0 0 0 1 0]
NLP: [1 0 0 0 0]
в: [0 0 1 0 0]
Python: [0 1 0 0 0]


# Bag of words

Модель "мешок слов" (Bag of Words, BoW) - это один из базовых методов представления текстовых данных в обработке естественного языка (NLP). Она представляет текст как неупорядоченный набор слов, игнорируя порядок слов и учитывая только их вхождение в текст. Эта концепция имеет несколько ключевых аспектов:

1. **Игнорирование порядка слов**: Модель BoW не учитывает порядок слов в тексте. Она считает, что структура и порядок слов не имеют значения и что каждое слово является независимым от остальных.

2. **Создание словаря**: Прежде чем использовать модель BoW, необходимо создать словарь всех уникальных слов, которые могут встречаться в текстах. Этот словарь будет использоваться для создания векторов признаков.

3. **Подсчет вхождений слов**: Для каждого текста в корпусе подсчитывается, сколько раз каждое слово из словаря встречается в данном тексте.

4. **Представление текстов в виде векторов**: Каждый текст представляется в виде вектора фиксированной длины, где каждый элемент вектора соответствует слову из словаря, а его значение - количеству вхождений этого слова в текст.

Пример:
Предположим, у нас есть следующие тексты:
- "Я люблю программирование."
- "Программирование интересно."
- "Программирование - это будущее."

Сначала создается словарь всех уникальных слов: ["Я", "люблю", "программирование", "интересно", "это", "будущее"].

Затем каждый текст представляется в виде вектора BoW:
- "Я люблю программирование." станет [1, 1, 1, 0, 0, 0].
- "Программирование интересно." станет [0, 0, 1, 1, 0, 0].
- "Программирование - это будущее." станет [0, 0, 1, 0, 1, 1].

Преимущества и недостатки модели BoW:

Преимущества:
- Простота и понятность.
- Эффективность для многих задач, таких как классификация текстов.
- Позволяет работать с текстами в числовой форме, что необходимо для многих алгоритмов машинного обучения.

Недостатки:
- Не учитывает семантические отношения между словами.
- Разреженность данных: векторы BoW часто имеют много нулей, что увеличивает вычислительную сложность.
- Потеря информации о порядке слов.
- Не подходит для задач, где важен контекст и семантика, таких как машинный перевод.

Модель BoW является важным концептуальным инструментом в NLP и обычно используется как базовая модель для более сложных методов, таких как TF-IDF и векторные представления слов (Word Embeddings).

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

# Пример корпуса текстов
corpus = [
    "Это пример текста 1.",
    "Это еще один текст.",
    "Тексты могут быть короткими или длинными."
]

# Создаем объект CountVectorizer
vectorizer = CountVectorizer()

# Преобразуем корпус в матрицу Bag of Words
X = vectorizer.fit_transform(corpus)

# Получаем список слов (терминов)
words = vectorizer.get_feature_names_out()

# Выводим матрицу Bag of Words
print("Матрица Bag of Words:")
print(X.toarray())

# Выводим список слов
print("\nСписок слов:")
print(words)


Матрица Bag of Words:
[[0 0 0 0 0 0 0 1 0 1 0 1]
 [0 0 1 0 0 0 1 0 1 0 0 1]
 [1 1 0 1 1 1 0 0 0 0 1 0]]

Список слов:
['быть' 'длинными' 'еще' 'или' 'короткими' 'могут' 'один' 'пример' 'текст'
 'текста' 'тексты' 'это']


# TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) - это статистическая мера, используемая в обработке естественного языка (NLP) для оценки важности слова в документе относительно корпуса документов. TF-IDF представляет собой комбинацию двух компонентов:

1. **TF (Term Frequency)** - Частота термина: это мера, которая оценивает, насколько часто слово встречается в данном документе. Она измеряет, насколько слово важно для конкретного документа.

2. **IDF (Inverse Document Frequency)** - Обратная частота документа: это мера, которая оценивает, насколько слово уникально для всего корпуса документов. Она измеряет, насколько слово важно в контексте всего корпуса.

Комбинируя TF и IDF, мы можем вычислить TF-IDF для каждого слова в документе. Формула для вычисления TF-IDF для слова `w` в документе `d` обычно выглядит следующим образом:

```
TF-IDF(w, d) = TF(w, d) * IDF(w)
```

Где:
- `TF(w, d)` - Частота термина (Term Frequency) слова `w` в документе `d`. Это может быть просто количество вхождений слова в документе или нормализованное значение, например, частота встречаемости слова в документе относительно общей длины документа.
- `IDF(w)` - Обратная частота документа (Inverse Document Frequency) слова `w`. Это значение вычисляется как логарифм обратного отношения общего числа документов в корпусе к числу документов, содержащих слово `w`. Формула может быть слегка варьирована для учета различных вариантов.

Преимущества TF-IDF в NLP:
- Помогает выделить важные слова в документах.
- Учитывает частоту и уникальность слова.
- Хорошо работает для выявления ключевых слов и тематического моделирования.
- Используется для ранжирования документов в поисковых системах.

Недостатки TF-IDF в NLP:
- Не учитывает семантику слов.
- Не учитывает порядок слов в тексте.
- Не обрабатывает синонимы и многозначные слова.

TF-IDF - это полезная мера для анализа и обработки текстовых данных, и она часто используется в задачах информационного поиска, классификации текстов и кластеризации документов.

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Пример корпуса текстов
corpus = [
    "Это пример текста 1.",
    "Это еще один текст.",
    "Тексты могут быть короткими или длинными."
]

# Создаем объект TfidfVectorizer
vectorizer = TfidfVectorizer()

# Преобразуем корпус в TF-IDF матрицу
tfidf_matrix = vectorizer.fit_transform(corpus)

# Получаем список слов (терминов)
words = vectorizer.get_feature_names_out()

# Выводим TF-IDF матрицу
print("TF-IDF Матрица:")
print(tfidf_matrix.toarray())

# Выводим список слов
print("\nСписок слов:")
print(words)


TF-IDF Матрица:
[[0.         0.         0.         0.         0.         0.
  0.         0.62276601 0.         0.62276601 0.         0.4736296 ]
 [0.         0.         0.52863461 0.         0.         0.
  0.52863461 0.         0.52863461 0.         0.         0.40204024]
 [0.40824829 0.40824829 0.         0.40824829 0.40824829 0.40824829
  0.         0.         0.         0.         0.40824829 0.        ]]

Список слов:
['быть' 'длинными' 'еще' 'или' 'короткими' 'могут' 'один' 'пример' 'текст'
 'текста' 'тексты' 'это']


BM25

BM25 (Best Matching 25) - это вероятностная модель ранжирования для информационного поиска и анализа текста. BM25 является улучшенной версией более ранней модели BM25, которая была представлена в 1994 году. BM25 используется для оценки релевантности документов по отношению к запросу пользователя в системах поиска, включая поисковые движки, и для анализа текстовых данных.

Основные концепции BM25:

1. **Веса терминов**: BM25 учитывает веса терминов (слов) в запросе и документе. Веса терминов определяют, насколько важен каждый термин для релевантности документа запросу.

2. **Длина документа**: BM25 учитывает длину документа. Это означает, что более длинные документы могут иметь более низкие оценки релевантности, если они содержат много терминов, которые не совпадают с запросом.

3. **IDF (Inverse Document Frequency)**: BM25 использует обратную документную частоту (IDF) для учета уникальности терминов в корпусе документов. Термины, которые встречаются редко в корпусе, имеют более высокие веса.

4. **Параметры ранжирования**: BM25 имеет несколько параметров ранжирования, таких как параметр "k" и параметр "b", которые можно настроить под конкретные задачи и типы данных.

5. **Вероятностное ранжирование**: BM25 представляет собой вероятностную модель ранжирования, которая оценивает вероятность, что документ будет релевантным для запроса.

Преимущества BM25 в NLP:

- BM25 является одним из наиболее эффективных алгоритмов ранжирования для поисковых систем.
- Он хорошо работает с короткими и длинными текстами.
- Учитывает уникальность и веса терминов, что делает его более точным по сравнению с некоторыми более простыми моделями.

Недостатки BM25 в NLP:

- Требует настройки параметров для оптимальной производительности.
- Может быть вычислительно затратным при обработке больших корпусов документов.
- Не учитывает семантические отношения между словами.

BM25 широко используется в поисковых системах и информационном поиске для ранжирования и выдачи наиболее релевантных документов для пользовательских запросов.

In [20]:
from rank_bm25 import BM25Okapi

# Пример корпуса текстов
corpus = [
    "Это пример текст 1.",
    "Это еще один текст",
    "текст могут быть короткими или длинными."
]

# Разделите тексты на слова (токенизация)
tokenized_corpus = [text.split() for text in corpus]

# Создайте модель BM25
bm25 = BM25Okapi(tokenized_corpus)

# Запрос
query = "пример текст"

# Токенизируйте запрос
query_tokens = query.split()

# Вычислите BM25 для запроса и корпуса
scores = bm25.get_scores(query_tokens)

# Выведите результаты (релевантность документов по запросу)
for i, score in enumerate(scores):
    print(f"Документ {i + 1}: BM25 Score = {score:.3f}")


Документ 1: BM25 Score = 0.598
Документ 2: BM25 Score = 0.052
Документ 3: BM25 Score = 0.043
