# Виды токенизации в nlp


Токенизация в обработке естественного языка (NLP) — это процесс разделения текста на отдельные элементы, называемые токенами. Токены могут быть словами, фразами, символами или даже подстроками, в зависимости от задачи и целей обработки текста. Вот некоторые виды токенизации в NLP:

1. **Токенизация по словам (Word Tokenization)**: Этот вид токенизации разделяет текст на слова. Например, фраза "Привет, мир!" будет разделена на токены: ["Привет", ",", "мир", "!"].

2. **Токенизация по фразам (Phrase Tokenization)**: В некоторых случаях может потребоваться разделить текст на более крупные фрагменты, чем слова, например, на фразы или предложения.

3. **Символьная токенизация (Character Tokenization)**: В этом случае текст разделяется на отдельные символы. Это может быть полезно для некоторых задач, таких как сегментация писем в адреса электронной почты.

4. **Субсловная (Subword) токенизация**: Этот вид токенизации разбивает текст на субслова или морфемы, что полезно для работы с языками, где слова образуются путем комбинации корней и аффиксов. Примером может служить BPE (Byte-Pair Encoding) или токенизация на основе WordPiece.

5. **Токенизация на основе применения правил (Rule-based Tokenization)**: В этом случае используются правила для определения, какие символы служат разделителями токенов. Например, разделение по пробелам или знакам пунктуации.

6. **Токенизация на основе машинного обучения (Machine Learning-based Tokenization)**: В этом случае алгоритмы машинного обучения обучаются на больших объемах текста для автоматического выделения токенов. Примером может служить токенизация на основе рекуррентных нейронных сетей или Transformer-моделей.

7. **Токенизация на уровне символов и подсимвольных элементов (Byte-level and Sub-byte Tokenization)**: Для определенных задач, таких как обработка байтовых данных или кодирование в Unicode, текст может быть разделен на байты, символы или их части (например, биты).

8. **Многоуровневая токенизация (Multi-level Tokenization)**: В некоторых случаях применяются несколько уровней токенизации, например, сначала текст разделяется на слова, а затем каждое слово разделяется на подслова.

Выбор определенного метода токенизации зависит от конкретной задачи, языка и целей анализа текста. Каждый вид токенизации имеет свои преимущества и недостатки, и выбор должен быть сделан с учетом контекста и требований вашего NLP-проекта.

In [1]:
# В Python для токенизации текста по словам вы можете использовать различные библиотеки, такие как NLTK (Natural Language Toolkit) или spaCy, 
# или же просто разбить строку на слова с помощью методов строк. Вот примеры токенизации по словам с использованием разных методов:

# 1. **Разделение строки с помощью метода `split()`:**

text = "Привет, мир!"
tokens = text.split()  # Разделяем текст по пробелам
print(tokens)

['Привет,', 'мир!']


In [2]:
# 2. **Использование библиотеки NLTK:**
# Для этого вам нужно будет установить библиотеку NLTK, если она еще не установлена:

import nltk
# nltk.download('punkt')
from nltk.tokenize import word_tokenize

text = "Привет, мир!"
tokens = word_tokenize(text, language='russian')  # Токенизация по словам с помощью NLTK
print(tokens)

['Привет', ',', 'мир', '!']


In [3]:
# 3. **Использование библиотеки spaCy:**
# Для использования spaCy также потребуется установить библиотеку и загрузить соответствующую модель:


import spacy
import spacy.cli

# spacy.cli.download("ru_core_news_sm")
nlp = spacy.load("ru_core_news_sm")

text = "Привет, мир!"
doc = nlp(text)
tokens = [token.text for token in doc]  # Токенизация по словам с помощью spaCy
print(tokens)

['Привет', ',', 'мир', '!']


In [4]:
# Пример токенизации текста не по словам, а по фразам (предложениям) 
# с использованием библиотеки NLTK в Python:

import nltk

# Загрузим предобученный токенизатор для разбиения текста на предложения
# nltk.download('punkt')

from nltk.tokenize import sent_tokenize

text = "Привет, мир! Как дела? Это пример токенизации текста на предложения."
sentences = sent_tokenize(text, language='russian')  # Токенизация на предложения
print(sentences)

['Привет, мир!', 'Как дела?', 'Это пример токенизации текста на предложения.']


In [5]:
text = "Пример токенизации по символам"
tokens = list(text)  # Разделяем текст на символы
print(tokens)

['П', 'р', 'и', 'м', 'е', 'р', ' ', 'т', 'о', 'к', 'е', 'н', 'и', 'з', 'а', 'ц', 'и', 'и', ' ', 'п', 'о', ' ', 'с', 'и', 'м', 'в', 'о', 'л', 'а', 'м']


In [11]:
from tokenizers import CharBPETokenizer

tokenizer = CharBPETokenizer()

# Обучаем токенизатор на тексте
tokenizer.train(["corpus.txt"])

# Сохраняем модель токенизатора
# tokenizer.save("charbpe-tokenizer.json")

encoded = tokenizer.encode("пример для NLP")
print(encoded)
print(encoded.ids)

Encoding(num_tokens=10, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])
[43, 17, 20, 14, 34, 41, 36, 6, 5, 33]


# Виды нормализации в nlp

Нормализация в обработке естественного языка (NLP) - это процесс приведения текста к стандартизированному или упрощенному виду, который облегчает анализ и сравнение текстов. Вот некоторые виды нормализации в NLP:

1. **Приведение к нижнему регистру (Lowercasing)**: Приведение всех символов в тексте к нижнему регистру. Например, "Привет" и "привет" будут считаться одним и тем же словом после нормализации.

2. **Удаление пунктуации**: Удаление знаков препинания, символов и специальных символов из текста. Например, "Привет!" станет "Привет".

3. **Удаление стоп-слов (Stop Word Removal)**: Удаление часто встречающихся слов, которые не несут смысловой нагрузки (стоп-слова), таких как "и", "в", "с" и т. д.

4. **Стемминг (Stemming)**: Процесс обрезания аффиксов (окончаний) слов для приведения их к их базовой (словарной) форме. Например, слова "бегу", "бежит" и "бегут" могут быть преобразованы к основе "бег".

5. **Лемматизация (Lemmatization)**: Процесс приведения слов к их леммам, то есть к их базовым словарным формам. В отличие от стемминга, лемматизация учитывает грамматические правила и обеспечивает более точное приведение слов.

6. **Удаление лишних пробелов**: Удаление дополнительных пробелов между словами и в начале и конце текста.

7. **Замена чисел и дат**: Замена чисел и дат на специальные символы или токены, чтобы сохранить смысл текста, но упростить его структуру.

8. **Коррекция опечаток (Spelling Correction)**: Процесс исправления опечаток и орфографических ошибок в тексте.

9. **Удаление HTML-тегов**: В случае обработки веб-страниц, удаление HTML-тегов для извлечения только текстового содержания.

10. **Обработка сокращений и аббревиатур**: Замена сокращений и аббревиатур на полные формы или наоборот.

11. **Удаление специфичных символов и URL**: Удаление символов, не имеющих отношения к тексту, и URL-адресов.

12. **Нормализация дат и времени**: Приведение дат и времени к стандартному формату.

13. **Удаление символов регулярных выражений**: Удаление символов, соответствующих определенным шаблонам с использованием регулярных выражений.

14. **Перевод символов в транслит**: Преобразование текста на одном языке в транслитерацию другого языка.

Выбор конкретных методов нормализации зависит от задачи и требований проекта. Нормализация текста может быть важной частью предварительной обработки данных в NLP, чтобы улучшить качество анализа и моделирования.

In [None]:
from nltk.stem import SnowballStemmer

# Выберите язык для стеммера, например, русский
stemmer = SnowballStemmer("russian")

word = "бегу"
stemmed_word = stemmer.stem(word)
print(stemmed_word)

word = "сижу"
stemmed_word = stemmer.stem(word)
print(stemmed_word)

In [None]:
import pymorphy3

# Создайте объект лемматизатора для русского языка
morph = pymorphy3.MorphAnalyzer()

word = "бегу"
lemma = morph.parse(word)[0].normal_form
print(lemma)

word = "сижу"
lemma = morph.parse(word)[0].normal_form
print(lemma)