In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
import re
import string

## NLTK

In [None]:
!pip install nltk

NLTK предоставляет доступ к множеству текстовых корпусов и предварительно обученных моделей,  
которые могут быть полезны в различных задачах NLP. Эти данные не устанавливаются автоматически с библиотекой,   
поэтому их нужно загрузить отдельно. Для этого используйте следующий код:

In [None]:
# загружает наиболее часто используемые корпуса и модели
nltk.download('popular')

### Токенизация

Токенизация — это процесс разбиения текста на более мелкие части, такие как слова или предложения. 

In [6]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize

In [None]:
# Этот код загрузит необходимые данные punkt, которые используются для токенизации текста.
nltk.download('punkt')

Разбиение на слова

In [5]:
text = "NLTK упрощает обработку текста."
word_tokens = word_tokenize(text)
word_tokens

['NLTK', 'упрощает', 'обработку', 'текста', '.']

Разбиение на предложения:

In [9]:
text = "Одно предложение. Другое предложение."
sentence_tokens = sent_tokenize(text)
sentence_tokens

['Одно предложение.', 'Другое предложение.']

Удаление стоп-слов

Стоп-слова — это общеупотребительные слова в языке, которые обычно несут мало смысловой нагрузки (например, "и", "в", "на"). 

In [None]:
nltk.download('stopwords')

In [10]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

text = "NLTK помогает в удалении стоп-слов из текста."
tokens = word_tokenize(text)
stop_words = set(stopwords.words('russian'))
# stop_words = set(stopwords.words('english'))
filtered_tokens = [token for token in tokens if token not in stop_words]
filtered_tokens

['NLTK', 'помогает', 'удалении', 'стоп-слов', 'текста', '.']

Удаление знаков пунктуации

In [11]:
punctuation = set(string.punctuation)
filtered_tokens = [token for token in filtered_tokens if token not in punctuation]
filtered_tokens

['NLTK', 'помогает', 'удалении', 'стоп-слов', 'текста']

### Стемминг

Стемминг — это процесс сведения слов к их основной (корневой) форме, удаляя окончания и суффиксы.   
Это помогает уменьшить сложность текста и улучшить производительность алгоритмов анализа.

Разница между стемминг (stemming) и лемматизацией заключается в том, что лемматизация учитывает контекст  
и преобразует слово в его значимую базовую форму, тогда как стемминг просто удаляет последние несколько символов,   
что часто приводит к неверному значению и орфографическим ошибкам.

Стемминг на английском языке:

In [13]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()
text = "The stemmed form of leaves is leaf"
tokens = word_tokenize(text)
stemmed_words = [stemmer.stem(token) for token in tokens]
stemmed_words

['the', 'stem', 'form', 'of', 'leav', 'is', 'leaf']

Стемминг на русском языке:

In [15]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer("russian")
text = "Листовые листочки лист листва листве почему так"
tokens = word_tokenize(text)
stemmed_words = [stemmer.stem(word) for word in tokens]
print(stemmed_words)

['листов', 'зашел', 'листочк', 'лист', 'листв', 'листв', 'поч', 'так']


### Лемматизация

В отличие от стемминга, лемматизация сводит слова к их лемме — это более сложный процесс, который учитывает морфологический анализ слов.  
Лемматизация более точно обрабатывает слова, приводя их к словарной форме.

Лемматизация на английском языке:

Нужно загрузить данные omw-1.4 с помощью NLTK Downloader:

In [None]:
nltk.download('omw-1.4')

In [16]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

lemmatizer = WordNetLemmatizer()
text = "The lemmatized form of leaves is leaf"
tokens = word_tokenize(text)
lemmatized_words = [lemmatizer.lemmatize(word) for word in tokens]
print(lemmatized_words)

['The', 'lemmatized', 'form', 'of', 'leaf', 'is', 'leaf']


Лемматизация на русском языке   
используя стеммер, так как для русского языка NLTK не предоставляет прямой лемматизатор

In [17]:
stemmer = SnowballStemmer("russian")
text = "Лемматизированная форма слова листья это лист"
tokens = word_tokenize(text)
lemmatized_words = [stemmer.stem(word) for word in tokens]
lemmatized_words

['лемматизирова', 'форм', 'слов', 'лист', 'эт', 'лист']

### Анализ настроений

Анализ настроений, иногда называемый "определением тональности", включает использование NLP,   
статистических или машинно-обученных алгоритмов для изучения, идентификации и извлечения информации о настроениях из текстов. 

Анализ настроений (или сентимент-анализ) в NLTK часто сводится к классификации текста на позитивный или негативный.  
Чтобы реализовать анализ настроений, можно использовать разные подходы.

Простая классификация с использованием предварительно обученных данных

In [None]:
nltk.download('vader_lexicon')

In [None]:
from nltk.sentiment import SentimentIntensityAnalyzer

sia = SentimentIntensityAnalyzer()
text = "NLTK is amazing for natural language processing!"
print(sia.polarity_scores(text))

Классификация с использованием настраиваемых тренировочных данных

https://www.nltk.org/howto/sentiment.html

In [None]:
nltk.download('subjectivity')

In [None]:
import nltk
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import subjectivity
from nltk.sentiment import SentimentAnalyzer
from nltk.sentiment.util import *

n_instances = 100
subj_docs = [(sent, 'subj') for sent in subjectivity.sents(categories='subj')[:n_instances]]
obj_docs = [(sent, 'obj') for sent in subjectivity.sents(categories='obj')[:n_instances]]
train_subj_docs = subj_docs[:80]
test_subj_docs = subj_docs[80:100]
train_obj_docs = obj_docs[:80]
test_obj_docs = obj_docs[80:100]
training_docs = train_subj_docs+train_obj_docs
testing_docs = test_subj_docs+test_obj_docs

sentim_analyzer = SentimentAnalyzer()
all_words_neg = sentim_analyzer.all_words([mark_negation(doc) for doc in training_docs])
unigram_feats = sentim_analyzer.unigram_word_feats(all_words_neg, min_freq=4)
sentim_analyzer.add_feat_extractor(extract_unigram_feats, unigrams=unigram_feats)
training_set = sentim_analyzer.apply_features(training_docs)
test_set = sentim_analyzer.apply_features(testing_docs)

trainer = NaiveBayesClassifier.train
classifier = sentim_analyzer.train(trainer, training_set)

for key,value in sorted(sentim_analyzer.evaluate(test_set).items()):
    print('{0}: {1}'.format(key, value))

С помощью Vader  
VADER (Valence Aware Dictionary and sEntiment Reasoner) — это модуль NLTK, который предоставляет оценки эмоций на основе словаря,  
который сопоставляет лексические особенности с интенсивностью эмоций.

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sentences = ["VADER is smart, handsome, and funny.", # positive sentence example
    "VADER is smart, handsome, and funny!", # punctuation emphasis handled correctly (sentiment intensity adjusted)
    "VADER is very smart, handsome, and funny.",  # booster words handled correctly (sentiment intensity adjusted)
    "VADER is VERY SMART, handsome, and FUNNY.",  # emphasis for ALLCAPS handled
    "VADER is VERY SMART, handsome, and FUNNY!!!",# combination of signals - VADER appropriately adjusts intensity
    "VADER is VERY SMART, really handsome, and INCREDIBLY FUNNY!!!",# booster words & punctuation make this close to ceiling for score
    "The book was good.",         # positive sentence
    "The book was kind of good.", # qualified positive sentence is handled correctly (intensity adjusted)
    "The plot was good, but the characters are uncompelling and the dialog is not great.", # mixed negation sentence
    "A really bad, horrible book.",       # negative sentence with booster words
    "At least it isn't a horrible book.", # negated negative sentence with contraction
    ":) and :D",     # emoticons handled
    "",              # an empty string is correctly handled
    "Today sux",     #  negative slang handled
    "Today sux!",    #  negative slang with punctuation emphasis handled
    "Today SUX!",    #  negative slang with capitalization emphasis
    "Today kinda sux! But I'll get by, lol" # mixed sentiment example with slang and constrastive conjunction "but"
]
paragraph = "It was one of the worst movies I've seen, despite good reviews. \
Unbelievably bad acting!! Poor direction. VERY poor production. \
The movie was bad. Very bad movie. VERY bad movie. VERY BAD movie. VERY BAD movie!"

In [None]:
from nltk import tokenize
lines_list = tokenize.sent_tokenize(paragraph)
sentences.extend(lines_list)

In [None]:
tricky_sentences = [
   "Most automated sentiment analysis tools are shit.",
   "VADER sentiment analysis is the shit.",
   "Sentiment analysis has never been good.",
   "Sentiment analysis with VADER has never been this good.",
   "Warren Beatty has never been so entertaining.",
   "I won't say that the movie is astounding and I wouldn't claim that \
   the movie is too banal either.",
   "I like to hate Michael Bay films, but I couldn't fault this one",
   "I like to hate Michael Bay films, BUT I couldn't help but fault this one",
   "It's one thing to watch an Uwe Boll film, but another thing entirely \
   to pay for it",
   "The movie was too good",
   "This movie was actually neither that funny, nor super witty.",
   "This movie doesn't care about cleverness, wit or any other kind of \
   intelligent humor.",
   "Those who find ugly meanings in beautiful things are corrupt without \
   being charming.",
   "There are slow and repetitive parts, BUT it has just enough spice to \
   keep it interesting.",
   "The script is not fantastic, but the acting is decent and the cinematography \
   is EXCELLENT!",
   "Roger Dodger is one of the most compelling variations on this theme.",
   "Roger Dodger is one of the least compelling variations on this theme.",
   "Roger Dodger is at least compelling as a variation on the theme.",
   "they fall in love with the product",
   "but then it breaks",
   "usually around the time the 90 day warranty expires",
   "the twin towers collapsed today",
   "However, Mr. Carter solemnly argues, his client carried out the kidnapping \
   under orders and in the ''least offensive way possible.''"
]
sentences.extend(tricky_sentences)
for sentence in sentences:
    sid = SentimentIntensityAnalyzer()
    print(sentence)
    ss = sid.polarity_scores(sentence)
    for k in sorted(ss):
        print('{0}: {1}, '.format(k, ss[k]), end='')
    print()

Анализ настроений с использованием токенизатора и списка стоп-слов

In [None]:
nltk.download('stopwords')
nltk.download('vader_lexicon')

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.sentiment import SentimentIntensityAnalyzer
import nltk

stop_words = set(stopwords.words('english'))
text = "NLTK is not bad for learning NLP."
filtered_text = ' '.join([word for word in word_tokenize(text) if not word in stop_words])

sia = SentimentIntensityAnalyzer()
ss = sia.polarity_scores(filtered_text)
for k in sorted(ss):
    print('{0}: {1}, '.format(k, ss[k]), end='')

Комбинирование лемматизации и анализа настроений

In [None]:
nltk.download('wordnet')
nltk.download('vader_lexicon')

In [None]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from nltk.sentiment import SentimentIntensityAnalyzer
import nltk

lemmatizer = WordNetLemmatizer()
text = "The movie was not good. The plot was terrible!"
lemmatized_text = ' '.join([lemmatizer.lemmatize(word) for word in word_tokenize(text)])

sia = SentimentIntensityAnalyzer()
ss = sia.polarity_scores(lemmatized_text)
for k in sorted(ss):
    print('{0}: {1}, '.format(k, ss[k]), end='')

## TextBlob

Использование TextBlob для анализа настроений

In [None]:
!pip install textblob

In [None]:
from textblob import TextBlob

text = "I love NLTK. It's incredibly helpful!"
blob = TextBlob(text)
print(blob.sentiment)

## Rulemma 

Этот лемматизатор написан полностью на Питоне

In [None]:
!pip3 install git+https://github.com/Koziev/rulemma

На вход лемматизатор принимает результаты частеречного разбора, который выполняется отдельной библиотекой rupostagger.  
В свою очередь частеречная разметка выполняется по результатам токенизации, которую можно выполнить с помощью rutokenizer.

In [None]:
pip install rutokenizer rupostagger rulemma

In [None]:
import rutokenizer
import rupostagger
import rulemma


lemmatizer = rulemma.Lemmatizer()
lemmatizer.load()

tokenizer = rutokenizer.Tokenizer()
tokenizer.load()

tagger = rupostagger.RuPosTagger()
tagger.load()

sent = u'Мяукая, голодные кошки ловят жирненьких хрюнделей'
tokens = tokenizer.tokenize(sent)
tags = tagger.tag(tokens)
lemmas = lemmatizer.lemmatize(tags)
for word, tags, lemma, *_ in lemmas:
	print(u'{:15}\t{:15}\t{}'.format(word, lemma, tags))

## Natasha

https://habr.com/ru/articles/516098/  
https://github.com/natasha/natasha  
https://nbviewer.org/github/natasha/natasha/blob/master/docs.ipynb

Библиотека Natasha имеет множество функций включая токенизацию, морфологический анализ,   
лемматизацию, синтаксический анализ и извлечение именованных сущностей.

In [None]:
!pip install natasha

In [None]:
# Import, initialize modules, build Doc object.
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)


segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились депутаты Верховной Рады. Парламентарии уверены, что признание Бандеры национальным героем поможет в борьбе с подрывной деятельностью против Украины в информационном поле, а также остановит «распространение мифов, созданных российской пропагандой». Степан Бандера (1909-1959) был одним из лидеров Организации украинских националистов, выступающей за создание независимого государства на территориях с украиноязычным населением. В 2010 году в период президентства Виктора Ющенко Бандера был посмертно признан Героем Украины, однако впоследствии это решение было отменено судом. '
doc = Doc(text)

In [None]:
# Split text into tokens and sentencies. Defines tokens and sents properties of doc. Uses Razdel internally.
doc.segment(segmenter)
print(doc.tokens[:5])
print(doc.sents[:5])

Токенизация и сегментация текста на предложения и токены в Natasha осуществляются с помощью встроенной библиотеки Razdel:

In [None]:
from razdel import tokenize, sentenize
text = "Текст для анализа."
tokens = list(tokenize(text))
sents = list(sentenize(text))

Морфологический анализатор Natasha, основанный на модели Slovnet,   
позволяет извлекать богатую морфологическую информацию о каждом токене, такую как часть речи, род, число и падеж:

In [None]:
from natasha import MorphVocab, Doc

morph_vocab = MorphVocab()
doc = Doc(text)
doc.segment(segmenter)
doc.tag_morph(morph_tagger)

for token in doc.tokens:
    print(token.text, token.pos, token.feats)
    
# Call morph.print() to visualize morphology markup.
doc.sents[0].morph.print()    

Лемматизация в Natasha производится на основе того же морфологического анализа и использует Pymorphy для приведения слов к их начальной форме:

In [None]:
for token in doc.tokens:
    token.lemmatize(morph_vocab)
    print(token.text, token.lemma)

Синтаксический анализатор Natasha основан на модели Slovnet и позволяет строить деревья зависимостей для предложений.   
Например, визуализации синтаксического анализа будет выглядеть так:

In [None]:
doc.parse_syntax(syntax_parser)
for sent in doc.sents:
    sent.syntax.print()

NER - Named Entity Recognition

In [None]:
# Extract standart named entities: names, locations, organizations.     
# Depends on segmentation step. Defines spans property of doc. Uses Slovnet NER model internally. 

# Call ner.print() to visualize NER markup. Uses Ipymarkup internally. 
doc.tag_ner(ner_tagger)
print(doc.spans[:5])
doc.ner.print()


Named entity normalization

In [None]:
# For every NER span apply normalization procedure. Depends on NER, morphology and syntax steps. Defines normal property of doc.spans.

for span in doc.spans:
    span.normalize(morph_vocab)
print(doc.spans[:5])
{_.text: _.normal for _ in doc.spans if _.text != _.normal}

Named entity parsing

In [None]:
# Parse PER named entities into firstname, surname and patronymic. 
# Depends on NER step. Defines fact property of doc.spans. Uses Yargy-parser internally.

# Natasha also has built in extractors for dates, money, address.

# Можно извлечь также все типы, которые есть в span.type,  
# указав вместо PER другой

for span in doc.spans:
   if span.type == PER:
       span.extract_fact(names_extractor)
       
print(doc.spans[:5])
{_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER}

## DeepPavlov

In [None]:
!pip install deeppavlov

Классификация намерений   
помогает понять, что хочет пользователь, вводя запрос в чат-бота. Можно использовать предобученную модель для классификации намерений:

In [None]:
from deeppavlov import build_model, configs

# загрузка модели классификации намерений
intent_model = build_model(configs.classifiers.intents_snips, download=True)

# классификация намерения в запросе
intent_predictions = intent_model(['Book a flight from New York to San Francisco'])
print(intent_predictions)

Извлечение именованных сущностей используют для определения и классификации значимых информационных элементов в тексте:

In [None]:
ner_model = build_model(configs.ner.ner_ontonotes_bert_mult, download=True)

# извлечение сущностей из текста
ner_results = ner_model(['John works at Disney in California'])
print(ner_results)

Модель для ответов на вопросы позволяет системе находить ответы на вопросы, указанные в контексте:

In [None]:
qa_model = build_model(configs.squad.squad_bert, download=True)

# получение ответа на вопрос из предоставленного контекста
qa_result = qa_model(["What is the capital of France?", "The capital of France is Paris."])
print(qa_result)

## MyStem

https://yandex.ru/dev/mystem/doc/ru/  
https://github.com/nlpub/pymystem3

MyStem — это продукт от Яндекса, предоставляющий возможности для морфологического и синтаксического анализа текстов.   
Он работает как консольное приложение и доступен для различных операционных систем (Windows, Linux, MacOS).   
MyStem использует собственные алгоритмы для определения начальной формы слова и его грамматических характеристик

Например, базовая лемматизация и морфологический анализ:

In [None]:
!pip install pymystem3

Вместо `m.lemmatize(x)` можно использовать `m.analyze(x)` с параметром `lemmatize=True`,  
чтобы получить только леммы, а не полный морфологический анализ. Это может быть быстрее для лемматизации.

In [None]:
from pymystem3 import Mystem

m = Mystem()  # Создаем объект Mystem один раз

def lemmatize_text(text):
  """Лемматизация текста."""
  return ''.join(m.analyze(text)[0]['analysis'][0]['lex'] for word in m.analyze(text))

df['purpose_lem'] = df['purpose'].apply(lemmatize_text) 

In [None]:
from pymystem3 import Mystem

m = Mystem()
text = "Мама мыла раму каждый вечер перед сном."
lemmas = m.lemmatize(text)
print(''.join(lemmas))

# морфологический анализ
analyzed = m.analyze(text)
for word_info in analyzed:
    if 'analysis' in word_info and word_info['analysis']:
        gr = word_info['analysis'][0]['gr']
        print(f"{word_info['text']} - {gr}")

Частая задача для лемматизированных слов — подсчёт числа их упоминаний в тексте.  
Для этого вызывают специальный контейнер Counter из модуля collections.

In [4]:
from collections import Counter
from pymystem3 import Mystem
m = Mystem() 
text = """
Легкомысленные речи за столом произносив, 
я сидел, раскинув плечи, неподвижен и красив.
"""
lemmas = m.lemmatize(text)
lemmas[:5]

['\n', 'легкомысленный', ' ', 'речь', ' ']

In [7]:
Counter(lemmas)

Counter({'\n': 2,
         'легкомысленный': 1,
         ' ': 8,
         'речь': 1,
         'за': 1,
         'стол': 1,
         'произносить': 1,
         ', \n': 1,
         'я': 1,
         'сидеть': 1,
         ', ': 2,
         'раскидывать': 1,
         'плечо': 1,
         'неподвижный': 1,
         'и': 1,
         'красивый': 1,
         '.': 1})

Getting grammatical information and lemmas.

In [None]:
import json
from pymystem3 import Mystem

text = "Красивая мама красиво мыла раму"
m = Mystem()
lemmas = m.lemmatize(text)

print ("lemmas:", ''.join(lemmas))
print ("full info:", json.dumps(m.analyze(text), ensure_ascii=False))

- С помощью лематизации мы можем сократить количество категорий.  

In [None]:
# лемматизация

unique_purpose = data['purpose'].unique()
lemmas_list = []
m = Mystem()
for purpose in unique_purpose:
    lemmas = ''.join(m.lemmatize(purpose)).strip()
    lemmas_list.append(lemmas)


Выделяются группы:
- операции с автомобилем (ключевое слово - автомобиль)
- операции с недвижимостью (ключевые слова: жилье, недвижимость)
- проведение свадьбы (ключевое слово: свадьба)
- получение образования (ключевое слово: образование)


In [None]:
# Функция для назначения категории цели

def create_category_purpose(row):
    lem_purpose = m.lemmatize(row['purpose'])
    try:
        if 'автомобиль' in lem_purpose:
            return 'операции с автомобилем'
        if ('жилье' in lem_purpose) or ('недвижимость' in lem_purpose ):
            return 'операции с недвижимостью'
        if 'свадьба' in lem_purpose:
            return 'проведение свадьбы'
        if 'образование' in lem_purpose:
            return 'получение образования'
    except:
        return 'нет категории'

## PyMorphy3

PyMorphy2 также предоставляет функции для морфологического анализа текстов, но в отличие от MyStem,   
PyMorphy2 полностью открыта и развивается сообществом. Библиотека использует словари OpenCorpora для анализа и может работать с русским и украинским языком.   
PyMorphy2 также предлагает API.

Примеры использования:


In [None]:

import pymorphy3


# Определение части речи и форм слова:

morph = pymorphy3.MorphAnalyzer()
word = 'стали'
parsed_word = morph.parse(word)[0]
print(f"Нормальная форма: {parsed_word.normal_form}")
print(f"Часть речи: {parsed_word.tag.POS}")
print(f"Полное морфологическое описание: {parsed_word.tag}")

# Согласование слова с числом:

word = 'книга'
parsed_word = morph.parse(word)[0]
plural = parsed_word.make_agree_with_number(5).word
print(f"Множественное число слова '{word}': {plural}")

# Работа с различными падежами:

word = 'город'
parsed_word = morph.parse(word)[0]
for case in ['nomn', 'gent', 'datv', 'accs', 'ablt', 'loct']:
    form = parsed_word.inflect({case}).word
    print(f"{case}: {form}")

## Модель Bag of Words (BoW)

Модель "Мешок слов" (Bag of Words, BoW) является основным методом представления текстовых данных в обработке естественного языка (Natural Language Processing, NLP).  
Она преобразует текст в числовой вектор, где каждое слово в тексте представляется количеством его появлений.

В модели BoW текст (например, предложение или документ) представляется в виде "мешка" его слов, не учитывая грамматику и порядок слов, но сохраняя мультиплицивность.  
Это преобразование текста в набор чисел позволяет использовать стандартные методы машинного обучения, которые работают на числовых данных.

Каждое уникальное слово в тексте соответствует определенному индексу (или "слоту") в векторе. Если слово встречается в тексте,   
то в соответствующем слоте вектора записывается количество его появлений. Например, текст "яблоко банан яблоко" превратится в вектор [2, 1],   
если индекс 0 соответствует слову "яблоко", а индекс 1 — слову "банан".

В анализе настроений модель BoW используется для преобразования текстовых данных в формат, пригодный для алгоритмов машинного обучения.  
Так, текстовые данные (например, отзывы пользователей) преобразуются в числовые векторы, на которых можно обучать классификаторы для определения,  
например, позитивного или негативного отношения.

In [None]:
nltk.download('punkt')

In [7]:
import nltk
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis  
from sklearn.neighbors import KNeighborsClassifier  
from sklearn.naive_bayes import GaussianNB  
from sklearn.tree import DecisionTreeClassifier  
from sklearn.svm import SVC
from sklearn.cluster import MiniBatchKMeans

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
from nltk.corpus import movie_reviews
import string
import random

In [None]:
# Пример данных
nltk.download('movie_reviews')

In [2]:

lemma = nltk.WordNetLemmatizer()
stop_words = set(nltk.corpus.stopwords.words('english'))
punctuation = set(string.punctuation)

# Загрузка данных
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)

In [3]:
# Подготовка данных
texts = [' '.join(doc) for doc, _ in documents]
labels = [1 if category == 'pos' else 0 for _, category in documents]

In [4]:
prep_text = []
# Токенизация и лематизация
for sentence in texts:
    sentence = sentence.lower()
    tokens = word_tokenize(sentence)
    lem_tokens = [lemma.lemmatize(token) for token in tokens]
    lem_filt_tokens = [token for token in lem_tokens if token not in stop_words and token not in punctuation]
    prep_sentence = ' '.join(lem_filt_tokens)
    prep_text.append(prep_sentence)
   
# Создание BoW модели
vectorizer = CountVectorizer()
bow = vectorizer.fit_transform(prep_text)

# Разделение данных на обучающую и тестовую выборку
X_train, X_test, y_train, y_test = train_test_split(bow, labels, test_size=0.3)


In [5]:
# Обучение классификатора
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# Оценка классификатора
predictions = classifier.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions))

print(classification_report(y_test, predictions, ))

Accuracy: 0.8033333333333333
              precision    recall  f1-score   support

           0       0.80      0.82      0.81       304
           1       0.81      0.79      0.80       296

    accuracy                           0.80       600
   macro avg       0.80      0.80      0.80       600
weighted avg       0.80      0.80      0.80       600



In [10]:
df = pd.read_csv('https://storage.googleapis.com/kagglesdsdata/datasets/2050/3494/SPAM%20text%20message%2020170820%20-%20Data.csv?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240812%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240812T040114Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=3ac09c07b4cd550f8b107f1351f7a7480dbbf1a0d2c5db52868271c4be609692eb0db5a88a5ea8d88b153e6f4f82270fb2314971b03a9465c378b30c061c13f153acd0bf1844b5969525540ea17ecb88cb787fc635eb02c9d68fd8522ac9a0668cc732993093bf2a3759146967a52afd9572dcf53c7e01a3956f8a4dfc409238e58ff387fa2fea8c78e864e00d0199095c60db91aa168c323aad27e20e54a3e5cd538da28856854f3ba67a078304dacac9d2536a1e17164bbffc1203817bb3d50601e4b4e250898e83c97b6fb250848ba0174cacbc952944cd946b5a7618affebfc308fa8b9b55721fa87cae44a7bd5954b5c1a4c4c58470447ab8aff9c40ffd')
df.head()

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [11]:
df['Category'] = df['Category'].apply(lambda x: 0 if x == 'ham' else 1)
df.head()

Unnamed: 0,Category,Message
0,0,"Go until jurong point, crazy.. Available only ..."
1,0,Ok lar... Joking wif u oni...
2,1,Free entry in 2 a wkly comp to win FA Cup fina...
3,0,U dun say so early hor... U c already then say...
4,0,"Nah I don't think he goes to usf, he lives aro..."


Создаем слова. На основе слов пишем для каждого текста словарь, где каждое слово - это ключ,   
а значение ключа - это сколько раз встречается данное слова в данном тексте.

- Удалим все символы, не являющимися латинскими буквами  
- Заглавные буквы меняем на строчные  
- Разделим текст на слова  
- В каждом слове выделяем корень слова  
- Создаем список всех слов  

nlp - natural language processing

In [14]:
nlp_data = df.iloc[0,1]
nlp_data

'Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...'

In [12]:
pattern = re.compile(r'[^a-zA-Z]')

In [None]:
# загрузим необходимые данные punkt, которые используются для токенизации текста
nltk.download('punkt')
# WordNet is often used for semantic analysis and part-of-speech tagging
nltk.download('wordnet')
# загрузим стоп-слова
nltk.download('stopwords')

In [13]:
stop_words = set(nltk.corpus.stopwords.words('english'))
punctuation = set(string.punctuation)

In [14]:
lemma = nltk.WordNetLemmatizer()

In [16]:
description_list = []
for descr in df.Message:
    # Удаление всех не латинских букв
    descr = pattern.sub(' ', descr)
    # Во всех словах заглавные буквы меняем на строчные
    descr = descr.lower()
    # Переводим текст в отдельные слова
    descr = nltk.word_tokenize(descr)
    words = [lemma.lemmatize(word) for word in descr]
    filtered_words = [word for word in words if word not in stop_words]
    descr = ' '.join(descr)
    description_list.append(descr)
description_list[:5]    

['go until jurong point crazy available only in bugis n great world la e buffet cine there got amore wat',
 'ok lar joking wif u oni',
 'free entry in a wkly comp to win fa cup final tkts st may text fa to to receive entry question std txt rate t c s apply over s',
 'u dun say so early hor u c already then say',
 'nah i don t think he goes to usf he lives around here though']

Создаем bag-of-words, для этого выбираем 3000 максимально встречаемых слов

Стоп-слова — это такие слова, которые присутствуют в любом языке и не привносят никакой полезной информации в предложение.

In [27]:
from sklearn.feature_extraction.text import CountVectorizer 
max_features = 3000
count_vectorizer = CountVectorizer(max_features = max_features, stop_words = "english")
sparce_matrix = count_vectorizer.fit_transform(description_list).toarray()
print(f"Часто встречаемые слова: {count_vectorizer.get_feature_names_out()[:100]}")

Часто встречаемые слова: ['aah' 'aathi' 'abi' 'ability' 'abiola' 'abj' 'able' 'absolutly' 'abt'
 'abta' 'aburo' 'ac' 'academic' 'acc' 'accept' 'access' 'accident'
 'accidentally' 'accordingly' 'account' 'accounts' 'ache' 'acl' 'aco'
 'acted' 'acting' 'action' 'activate' 'active' 'activities' 'actor'
 'actual' 'actually' 'ad' 'adam' 'add' 'addamsfa' 'added' 'addicted'
 'addie' 'address' 'admin' 'administrator' 'admirer' 'admit' 'adore'
 'adoring' 'ads' 'adult' 'advance' 'adventure' 'advice' 'advise' 'ae'
 'aeronautics' 'aeroplane' 'affair' 'affairs' 'affection' 'afraid' 'aft'
 'afternoon' 'aftr' 'ag' 'agalla' 'age' 'ages' 'ago' 'ah' 'aha' 'ahead'
 'ahmad' 'aight' 'ain' 'aint' 'air' 'airport' 'airtel' 'aiya' 'aiyah'
 'aiyar' 'aiyo' 'aj' 'aka' 'al' 'alaipayuthe' 'album' 'alcohol' 'alert'
 'alex' 'alfie' 'algarve' 'ali' 'alive' 'allah' 'allow' 'allowed'
 'alright' 'alrite' 'alwys']


In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer 
max_features = 3000
tfidf_count_vectorizer = TfidfVectorizer(max_features = max_features, stop_words = "english")
tfidf_sparce_matrix = tfidf_count_vectorizer.fit_transform(description_list).toarray()

In [None]:
# cv.vocabulary_ in this instance is a dict, where the keys are the words (features) that you've found and the values are indices
count_vectorizer.vocabulary_

Найдем 10 самых встречающихся слов

In [34]:
word_list = count_vectorizer.get_feature_names_out()

In [32]:
count_list = sparce_matrix.sum(axis=0)
count_list

array([3, 6, 4, ..., 6, 2, 2], dtype=int64)

In [42]:
most_appears_words = np.vstack([word_list, count_list])

In [46]:
most_appears_words[:, np.argsort(most_appears_words[1])[::-1]][:,:10]

array([['ur', 'just', 'gt', 'lt', 'ok', 'day', 'free', 'know', 'll',
        'come'],
       [391, 374, 318, 316, 293, 293, 288, 272, 270, 254]], dtype=object)

готовим данные для модели 

In [28]:
y = df.iloc[:,0].values
x = sparce_matrix

In [19]:
x_tfidf = tfidf_sparce_matrix

Делим данные на тренировочные и тестовые

In [29]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size = 0.2)

In [22]:
from sklearn.model_selection import train_test_split
x_train_tfidf, x_test_tfidf, y_train_tfidf, y_test_tfidf = train_test_split(x_tfidf,y, test_size = 0.2)

Напишем наивный байесовский классификатор

In [49]:
from sklearn.naive_bayes import GaussianNB
nb = GaussianNB()
nb.fit(x_train,y_train)
print("the accuracy of our model: {}".format(nb.score(x_test,y_test)))

the accuracy of our model: 0.8681614349775785


In [50]:
from sklearn.metrics import classification_report
print(classification_report(y_test, nb.predict(x_test)))

              precision    recall  f1-score   support

           0       0.98      0.86      0.92       971
           1       0.49      0.91      0.64       144

    accuracy                           0.87      1115
   macro avg       0.74      0.89      0.78      1115
weighted avg       0.92      0.87      0.88      1115



Напишем логистическую регрессию

In [30]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(max_iter = 200)
lr.fit(x_train,y_train)
print("our accuracy is: {}".format(lr.score(x_test,y_test)))

our accuracy is: 0.9811659192825112


In [31]:
print(classification_report(y_test, lr.predict(x_test)))

              precision    recall  f1-score   support

           0       0.98      1.00      0.99       956
           1       0.99      0.87      0.93       159

    accuracy                           0.98      1115
   macro avg       0.99      0.94      0.96      1115
weighted avg       0.98      0.98      0.98      1115



In [23]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(max_iter = 200)
lr.fit(x_train_tfidf,y_train_tfidf)
print("our accuracy is: {}".format(lr.score(x_test_tfidf,y_test_tfidf)))

our accuracy is: 0.9596412556053812


In [26]:
print(classification_report(y_test_tfidf, lr.predict(x_test_tfidf)))

              precision    recall  f1-score   support

           0       0.96      1.00      0.98       958
           1       0.97      0.74      0.84       157

    accuracy                           0.96      1115
   macro avg       0.96      0.87      0.91      1115
weighted avg       0.96      0.96      0.96      1115



Классификатор по методу ближайшего соседа

In [53]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(x_train,y_train)
#print('Prediction: {}'.format(prediction))
print('With KNN (K=3) accuracy is: ',knn.score(x_test,y_test))

With KNN (K=3) accuracy is:  0.9390134529147982


In [54]:
print(classification_report(y_test, knn.predict(x_test)))

              precision    recall  f1-score   support

           0       0.94      1.00      0.97       971
           1       0.97      0.54      0.70       144

    accuracy                           0.94      1115
   macro avg       0.96      0.77      0.83      1115
weighted avg       0.94      0.94      0.93      1115



In [57]:
from sklearn.ensemble import RandomForestClassifier
random_forest = RandomForestClassifier(n_estimators=100)
random_forest.fit(x_train,y_train)
#print('Prediction: {}'.format(prediction))
print('With random forest accuracy is: ',knn.score(x_test,y_test))

With random forest accuracy is:  0.9390134529147982


In [56]:
print(classification_report(y_test, random_forest.predict(x_test)))

              precision    recall  f1-score   support

           0       0.98      1.00      0.99       971
           1       0.98      0.85      0.91       144

    accuracy                           0.98      1115
   macro avg       0.98      0.93      0.95      1115
weighted avg       0.98      0.98      0.98      1115

