<a href="https://colab.research.google.com/github/koleslena/notebooks/blob/main/%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D1%80%D1%8B_%D0%BD%D0%B0_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Возьмем примеры текста

In [None]:
# Пример текста
text = """Just them another visitor entered the drawing room:
Prince Andrew Bolkonski, the little princess’ husband. He
was a very handsome young man, of medium height, with
firm, clearcut features. Everything about him, from his
weary, bored expression to his quiet, measured step,
offered a most striking contrast to his quiet, little wife. It
was evident that he not only knew everyone in the
drawing room, but had found them to be so tiresome that
it wearied him to look at or listen to them. """
print(text)

Just them another visitor entered the drawing room:
Prince Andrew Bolkonski, the little princess’ husband. He
was a very handsome young man, of medium height, with
firm, clearcut features. Everything about him, from his
weary, bored expression to his quiet, measured step,
offered a most striking contrast to his quiet, little wife. It
was evident that he not only knew everyone in the
drawing room, but had found them to be so tiresome that
it wearied him to look at or listen to them. 


Токенизация

In [None]:
import nltk
from nltk.tokenize import word_tokenize


# Токенизация текста
tokens = word_tokenize(text)

# Вывод токенов
print(tokens)


['Just', 'them', 'another', 'visitor', 'entered', 'the', 'drawing', 'room', ':', 'Prince', 'Andrew', 'Bolkonski', ',', 'the', 'little', 'princess', '’', 'husband', '.', 'He', 'was', 'a', 'very', 'handsome', 'young', 'man', ',', 'of', 'medium', 'height', ',', 'with', 'firm', ',', 'clearcut', 'features', '.', 'Everything', 'about', 'him', ',', 'from', 'his', 'weary', ',', 'bored', 'expression', 'to', 'his', 'quiet', ',', 'measured', 'step', ',', 'offered', 'a', 'most', 'striking', 'contrast', 'to', 'his', 'quiet', ',', 'little', 'wife', '.', 'It', 'was', 'evident', 'that', 'he', 'not', 'only', 'knew', 'everyone', 'in', 'the', 'drawing', 'room', ',', 'but', 'had', 'found', 'them', 'to', 'be', 'so', 'tiresome', 'that', 'it', 'wearied', 'him', 'to', 'look', 'at', 'or', 'listen', 'to', 'them', '.']


Удалим стоп-слова и пунктуацию - это два важных аспекта при обработке текста на естественном языке. Вот краткая справка по каждому из этих понятий:

1. Стоп-слова:

   - Определение: Стоп-слова (Stop words) - это слова, которые фильтруются или игнорируются при анализе текста, так как они считаются наиболее часто встречающимися и имеют мало информационной ценности.
   
   - Примеры стоп-слов: Примерами стоп-слов могут быть слова типа "и", "в", "на", "это", "с", "как" и т. д., которые часто встречаются в текстах, но не несут смысловой нагрузки.
   
   - Использование: Удаление стоп-слов позволяет сосредоточиться на более значимых словах в тексте и улучшить качество анализа. В NLP библиотеках, таких как NLTK, обычно имеются списки стоп-слов для различных языков.

2. Пунктуация:

   - Определение: Пунктуация - это категория символов, включающая знаки препинания, знаки письма и специальные символы, которые используются для структурирования и оформления текста.
   
   - Примеры пунктуационных символов: Примерами пунктуационных символов являются точка, запятая, вопросительный знак, кавычки, тире и другие специальные символы.
   
   - Использование: Удаление пунктуации в тексте помогает сосредоточиться на текстовых данных без учета различных знаков и символов. Это обычно делается перед токенизацией или другими операциями обработки текста.

Примечание: Исключение стоп-слов и пунктуации из текста перед проведением анализа или обработки является важным методом для улучшения качества анализа и сосредоточения на значимых словах и фразах.

In [None]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import string

stop = set(stopwords.words('english') + list(string.punctuation)+list("’"))

Теперь удалим их из нашего токенизированного списка

In [None]:
tokens = [token for token in tokens if token.lower() not in stop]
print(tokens)

['another', 'visitor', 'entered', 'drawing', 'room', 'Prince', 'Andrew', 'Bolkonski', 'little', 'princess', 'husband', 'handsome', 'young', 'man', 'medium', 'height', 'firm', 'clearcut', 'features', 'Everything', 'weary', 'bored', 'expression', 'quiet', 'measured', 'step', 'offered', 'striking', 'contrast', 'quiet', 'little', 'wife', 'evident', 'knew', 'everyone', 'drawing', 'room', 'found', 'tiresome', 'wearied', 'look', 'listen']


Добавим к токенизации стемминг

In [None]:
from nltk.stem import PorterStemmer

# Создаем объект стеммера Портера
porter = PorterStemmer()

# Стемминг для каждого токена
stemmed_tokens = [porter.stem(token) for token in tokens]

# Вывод стеммированных токенов
print(stemmed_tokens)


['anoth', 'visitor', 'enter', 'draw', 'room', 'princ', 'andrew', 'bolkonski', 'littl', 'princess', 'husband', 'handsom', 'young', 'man', 'medium', 'height', 'firm', 'clearcut', 'featur', 'everyth', 'weari', 'bore', 'express', 'quiet', 'measur', 'step', 'offer', 'strike', 'contrast', 'quiet', 'littl', 'wife', 'evid', 'knew', 'everyon', 'draw', 'room', 'found', 'tiresom', 'weari', 'look', 'listen']


Добавим лемматизацию вместо стемминга

In [None]:
from nltk.stem import WordNetLemmatizer

# Создаем объект лемматизатора WordNet
lemmatizer = WordNetLemmatizer()

# Лемматизация для каждого токена
lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]

# Вывод лемматизированных токенов
print(lemmatized_tokens)


['another', 'visitor', 'entered', 'drawing', 'room', 'Prince', 'Andrew', 'Bolkonski', 'little', 'princess', 'husband', 'handsome', 'young', 'man', 'medium', 'height', 'firm', 'clearcut', 'feature', 'Everything', 'weary', 'bored', 'expression', 'quiet', 'measured', 'step', 'offered', 'striking', 'contrast', 'quiet', 'little', 'wife', 'evident', 'knew', 'everyone', 'drawing', 'room', 'found', 'tiresome', 'wearied', 'look', 'listen']
