# <center> NLTK

NLTK предлагает удобные инструменты для множества задач NLP: токенизация, стемминг, лемматизация, морфологический и синтаксический анализ, а также анализ настроений. В NLTK включены корпуса текстов и словарные ресурсы, такие как WordNet, позволяющие работать с огромным объемом текстовых данных. Это делает NLTK мощным инструментом для анализа и обработки текста на разных языках.

# <center> <a id ="table_of_content"> Оглавление</a>

[Параметры](#main_params)

[Токенизация](#tokenization)

[Удаление стоп-слов](#stop-words)

[Стемминг](#stemming)

[Лемматизация](#lemmatization)

[Анализ настроения](#sentiment_analysis)

[Bag Of Words](#bag_of_words)

# <center> <a id='main_params'> Параметры NLTK</a>

In [80]:
import nltk

In [81]:
# Загрузка популярных слов и словосочетаний

nltk.download('popular')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]   

True

[К оглавлению](#table_of_content)

## <center> <a id='tokenization'> Токенизация </a>

Токенизация — это процесс разбиения текста на более мелкие части, такие как слова или предложения. Это первый шаг в анализе текста, который позволяет преобразовать непрерывный текст в дискретные элементы, с которыми можно работать отдельно. Этот процесс помогает в выявлении ключевых слов и фраз, а также в упрощении последующего анализа текста.

In [82]:
# Разбиение на слова

nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [83]:
# Токенизация текста

from nltk.tokenize import word_tokenize

text = "NLTK упрощает обработку текста."
word_tokens = word_tokenize(text)
print(word_tokens)

['NLTK', 'упрощает', 'обработку', 'текста', '.']


In [84]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')

text = "Hi, My name is Aman Kharwal, I am here to guide you to your journey in Machine Learning for free."
tokens = word_tokenize(text)
tokenization = [word for word in tokens if not word in stopwords.words('english')]
print(tokens)
print(tokenization)

['Hi', ',', 'My', 'name', 'is', 'Aman', 'Kharwal', ',', 'I', 'am', 'here', 'to', 'guide', 'you', 'to', 'your', 'journey', 'in', 'Machine', 'Learning', 'for', 'free', '.']
['Hi', ',', 'My', 'name', 'Aman', 'Kharwal', ',', 'I', 'guide', 'journey', 'Machine', 'Learning', 'free', '.']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [85]:
# Разбиение на предложения

from nltk.tokenize import sent_tokenize

text = "OTUS. Наш сайт https://otus.ru/."
sentence_tokens = sent_tokenize(text)
print(sentence_tokens)

['OTUS.', 'Наш сайт https://otus.ru/.']


Токенизация полезна в задачах, где необходимо анализировать отдельные слова или фразы, например, при определении ключевых слов в тексте, анализе частотности слов или при обучении моделей машинного обучения для классификации текста.

[К оглавлению](#table_of_content)

## <center> <a id='stop-words'> Удаление стоп-слов</a>

Стоп-слова — это общеупотребительные слова в языке, которые обычно несут мало смысловой нагрузки (например, "и", "в", "на"). Их удаление позволяет сократить объем данных для анализа и сосредоточиться на более значимых словах, что повышает точность и эффективность обработки текста.

In [86]:
# Загрузка модуля

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [87]:
#Удаление стоп-слов на русском

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

text = "NLTK помогает в удалении стоп-слов из текста."
tokens = word_tokenize(text)
stop_words = set(stopwords.words('russian'))
filtered_tokens = [word for word in tokens if word not in stop_words]

print(filtered_tokens)

['NLTK', 'помогает', 'удалении', 'стоп-слов', 'текста', '.']


In [88]:
#Удаление стоп-слов на английском

text = "NLTK helps in removing stopwords from the text."
tokens = word_tokenize(text)
filtered_tokens = [word for word in tokens if not word in stopwords.words('english')]
print(filtered_tokens)

['NLTK', 'helps', 'removing', 'stopwords', 'text', '.']


Удаление стоп-слов часто юзается в задачах обработки текста, таких как анализ настроений, классификация текстов, создание облаков слов и в информационном поиске, где важно выделить ключевую информацию из текста.

[К оглавлению](#table_of_content)

# <center> <a id='stemming'> Стемминг</a>

P.S. Стемминг — это процесс сведения слов к их основной (корневой) форме, удаляя окончания и суффиксы. Это помогает уменьшить сложность текста и улучшить производительность алгоритмов анализа.

In [8]:
# Стемминг на английском

from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()
text = "The stemmed form of leaves is leaf"
text_rus = "Листовые листочки лист листва листве почему так"
tokens = word_tokenize(text)
tokens_rus = word_tokenize(text_rus)
stemmed_words = [stemmer.stem(word) for word in tokens]
stemmed_words_rus = [stemmer.stem(word) for word in tokens_rus]
print(stemmed_words)
print(stemmed_words_rus)

['the', 'stem', 'form', 'of', 'leav', 'is', 'leaf']
['листовые', 'листочки', 'лист', 'листва', 'листве', 'почему', 'так']


In [12]:
# Стемминг на русском

from nltk.stem.snowball import SnowballStemmer

stemmer_rus = SnowballStemmer("russian")
text = "The stemmed form of leaves is leaf"
text_rus = "Листовые листочки лист листва листве почему так"
tokens = word_tokenize(text)
tokens_rus = word_tokenize(text_rus)
stemmed_words = [stemmer_rus.stem(word) for word in tokens]
stemmed_words_rus = [stemmer_rus.stem(word) for word in tokens_rus]
print(stemmed_words)
print(stemmed_words_rus)

['The', 'stemmed', 'form', 'of', 'leaves', 'is', 'leaf']
['листов', 'листочк', 'лист', 'листв', 'листв', 'поч', 'так']


Стемминг наиболее полезен в задачах, где важно уменьшить разнообразие словоформ, например, при индексации текста для поисковых систем, в аналитике текстов большого объема и при обучении моделей машинного обучения для классификации или кластеризации текстов.

[К оглавлению](#table_of_content)

# <center> <a id='lemmatization'> Лемматизация </a>

В отличие от стемминга, лемматизация сводит слова к их лемме — это более сложный процесс, который учитывает морфологический анализ слов. Лемматизация более точно обрабатывает слова, приводя их к словарной форме.

In [91]:
#Загрузка доп. модуля

import nltk
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [92]:
#Лемматизация на английском языке

from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

lemmatizer = WordNetLemmatizer()
text = "The lemmatized form of leaves is leaf"
tokens = word_tokenize(text)
lemmatized_words = [lemmatizer.lemmatize(word) for word in tokens]
print(lemmatized_words)

['The', 'lemmatized', 'form', 'of', 'leaf', 'is', 'leaf']


In [93]:
#Лемматизация на английском языке возможна только через стеммер

stemmer = SnowballStemmer("russian")
text = "Лемматизированная форма слова листья это лист"
tokens = word_tokenize(text)
lemmatized_words = [stemmer.stem(word) for word in tokens]
print(lemmatized_words)

['лемматизирова', 'форм', 'слов', 'лист', 'эт', 'лист']


Лемматизация важна в задачах, где требуется высокая точность обработки текста, таких как машинный перевод, семантический анализ текста и создание систем вопросов-ответов, где важно точно понимать значение слов в контексте.

[К оглавлению](#table_of_content)

# <center> <a id='sentiment_analysis'> Анализ настроения </a>

Анализ настроений, иногда называемый "определением тональности", включает использование NLP, статистических или машинно-обученных алгоритмов для изучения, идентификации и извлечения информации о настроениях из текстов. Он может быть столь же простым, как определение положительной или отрицательной окраски отзыва, или настолько сложным, как определение более тонких эмоциональных состояний, таких как ирония или разочарование.

Анализ настроений не без проблем. Одна из основных сложностей заключается в интерпретации сарказма, иронии и фигуративного языка. Например, фраза "Ну да, конечно, мне очень понравилось, когда мой телефон перестал работать" на самом деле выражает разочарование, хотя на первый взгляд может показаться положительной. Распознавание таких тонкостей требует продвинутых алгоритмов и, часто, контекстуального анализа.

Анализ настроений (или сентимент-анализ) в NLTK часто сводится к классификации текста на позитивный или негативный. Чтобы реализовать анализ настроений, можно использовать разные подходы.

In [94]:
#Простая классификация с использованием 
#предварительно обученных данных

import nltk
from nltk.sentiment import SentimentIntensityAnalyzer

nltk.download('vader_lexicon')

sia = SentimentIntensityAnalyzer()
text = "NLTK is amazing for natural language processing!"
print(sia.polarity_scores(text))

{'neg': 0.0, 'neu': 0.431, 'pos': 0.569, 'compound': 0.7644}


[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


In [95]:
#Классификация с использованием настраиваемых 
# тренировочных данных

import nltk
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import subjectivity
from nltk.sentiment import SentimentAnalyzer
from nltk.sentiment.util import *

nltk.download('subjectivity')

n_instances = 100
subj_docs = [(sent, 'subj') for sent in subjectivity.sents(categories='subj')[:n_instances]]
obj_docs = [(sent, 'obj') for sent in subjectivity.sents(categories='obj')[:n_instances]]
train_subj_docs = subj_docs[:80]
test_subj_docs = subj_docs[80:100]
train_obj_docs = obj_docs[:80]
test_obj_docs = obj_docs[80:100]
training_docs = train_subj_docs+train_obj_docs
testing_docs = test_subj_docs+test_obj_docs

sentim_analyzer = SentimentAnalyzer()
all_words_neg = neg_tagged_word_feats(sentim_analyzer.all_words(training_docs), mark_negation=True)
unigram_feats = sentim_analyzer.unigram_word_feats(all_words_neg, min_freq=4)
sentim_analyzer.add_feat_extractor(extract_unigram_feats, unigrams=unigram_feats)
training_set = sentim_analyzer.apply_features(training_docs)
test_set = sentim_analyzer.apply_features(testing_docs)

trainer = NaiveBayesClassifier.train
classifier = sentim_analyzer.train(trainer, training_set)

for key,value in sorted(sentim_analyzer.evaluate(test_set).items()):
    print('{0}: {1}'.format(key, value))

[nltk_data] Downloading package subjectivity to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package subjectivity is already up-to-date!


NameError: name 'neg_tagged_word_feats' is not defined

In [76]:
#Анализ настроения с помощью textblob

from textblob import TextBlob
import nltk

nltk.download('movie_reviews')
nltk.download('punkt')
nltk.download('punkt_tab')

text = "I love NLTK. It's incredibly helpful!"
blob = TextBlob(text)
print(blob.sentiment)

Sentiment(polarity=0.75, subjectivity=0.75)


[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [77]:
#Анализ настроений с помощью токенизатора и списка стоп-слов

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.sentiment import SentimentIntensityAnalyzer
import nltk

nltk.download('stopwords')
nltk.download('vader_lexicon')

stop_words = set(stopwords.words('english'))
text = "NLTK is not bad for learning NLP."
filtered_text = ' '.join([word for word in word_tokenize(text) if not word in stop_words])

sia = SentimentIntensityAnalyzer()
print(sia.polarity_scores(filtered_text))

{'neg': 0.538, 'neu': 0.462, 'pos': 0.0, 'compound': -0.5423}


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


In [78]:
#Комбинирование лемматизации и анализа настроений

from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from nltk.sentiment import SentimentIntensityAnalyzer
import nltk

nltk.download('wordnet')
nltk.download('vader_lexicon')

lemmatizer = WordNetLemmatizer()
text = "The movie was not good. The plot was terrible!"
lemmatized_text = ' '.join([lemmatizer.lemmatize(word) for word in word_tokenize(text)])

sia = SentimentIntensityAnalyzer()
print(sia.polarity_scores(lemmatized_text))

{'neg': 0.453, 'neu': 0.547, 'pos': 0.0, 'compound': -0.7002}


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


[К оглавлению](#table_of_content)

# <center> <a id='bag_of_words'> Bag Of Words </a>

Модель "Мешок слов" (Bag of Words, BoW) является основным методом представления текстовых данных в обработке естественного языка (Natural Language Processing, NLP). Она преобразует текст в числовой вектор, где каждое слово в тексте представляется количеством его появлений.

Модель BoW
В модели BoW текст (например, предложение или документ) представляется в виде "мешка" его слов, не учитывая грамматику и порядок слов, но сохраняя мультиплицивность. Это преобразование текста в набор чисел позволяет использовать стандартные методы машинного обучения, которые работают на числовых данных.

Каждое уникальное слово в тексте соответствует определенному индексу (или "слоту") в векторе. Если слово встречается в тексте, то в соответствующем слоте вектора записывается количество его появлений. Например, текст "яблоко банан яблоко" превратится в вектор [2, 1], если индекс 0 соответствует слову "яблоко", а индекс 1 — слову "банан".

В анализе настроений модель BoW используется для преобразования текстовых данных в формат, пригодный для алгоритмов машинного обучения. Так, текстовые данные (например, отзывы пользователей) преобразуются в числовые векторы, на которых можно обучать классификаторы для определения, например, позитивного или негативного отношения.

In [96]:
#Создание BoW с NLTK и его использование для классификации

import nltk
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

nltk.download('punkt')
nltk.download('punkt_tab')

# Пример данных
texts = ["I love this product", "This is a bad product", "I dislike this", "This is the best!"]
labels = [1, 0, 0, 1]  # 1 - позитивный, 0 - негативный

# Токенизация
tokens = [word_tokenize(text) for text in texts]

# Создание BoW модели
vectorizer = CountVectorizer()
bow = vectorizer.fit_transform([' '.join(token) for token in tokens])

# Разделение данных на обучающую и тестовую выборку
X_train, X_test, y_train, y_test = train_test_split(bow, labels, test_size=0.3)

# Обучение классификатора
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# Оценка классификатора
predictions = classifier.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions))

Accuracy: 0.0


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [97]:
#Пример 2. Простой анализ настроений с BoW

import nltk
from nltk.corpus import movie_reviews
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

nltk.download('movie_reviews')

# Загрузка данных
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)

# Подготовка данных
texts = [' '.join(doc) for doc, _ in documents]
labels = [1 if category == 'pos' else 0 for _, category in documents]

# Создание BoW модели
vectorizer = CountVectorizer()
bow = vectorizer.fit_transform(texts)

# Разделение данных на обучающую и тестовую выборку
X_train, X_test, y_train, y_test = train_test_split(bow, labels, test_size=0.3)

# Обучение классификатора
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# Оценка классификатора
predictions = classifier.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions))

[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\telis\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


Accuracy: 0.8166666666666667


[К оглавлению](#table_of_content)