### Обработка естественного языка (Natural Language Processing, NLP)

In [1]:
import nltk  # pip install nltk
import pandas as pd
import numpy as np
import os

In [24]:
corpus = """Жила в старом лесу белка. У белки весной появилась дочка белочка. Один раз белка с белочкой собирали грибы на зиму. Вдруг на соседней ёлке появилась куница. Она приготовилась схватить белочку. Мама – белка прыгнула навстречу кунице и крикнула дочке: «Беги!» Белочка бросилась наутёк. Наконец она остановилась. Посмотрела по сторонам, а места незнакомые! Мамы – белки нет. Что делать? Увидела белочка дупло на сосне, спряталась и заснула. А утром мама дочку нашла."""
corpus

'Жила в старом лесу белка. У белки весной появилась дочка белочка. Один раз белка с белочкой собирали грибы на зиму. Вдруг на соседней ёлке появилась куница. Она приготовилась схватить белочку. Мама – белка прыгнула навстречу кунице и крикнула дочке: «Беги!» Белочка бросилась наутёк. Наконец она остановилась. Посмотрела по сторонам, а места незнакомые! Мамы – белки нет. Что делать? Увидела белочка дупло на сосне, спряталась и заснула. А утром мама дочку нашла.'

#### Разделение на предложения (токенизация)

In [25]:
from nltk.tokenize import sent_tokenize

# скачиваем модель, которая будет делить на предложения
nltk.download('punkt')
nltk.download('punkt_tab')
 
sentences = sent_tokenize(corpus, language='russian')
sentences

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\chesh\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\chesh\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


['Жила в старом лесу белка.',
 'У белки весной появилась дочка белочка.',
 'Один раз белка с белочкой собирали грибы на зиму.',
 'Вдруг на соседней ёлке появилась куница.',
 'Она приготовилась схватить белочку.',
 'Мама – белка прыгнула навстречу кунице и крикнула дочке: «Беги!» Белочка бросилась наутёк.',
 'Наконец она остановилась.',
 'Посмотрела по сторонам, а места незнакомые!',
 'Мамы – белки нет.',
 'Что делать?',
 'Увидела белочка дупло на сосне, спряталась и заснула.',
 'А утром мама дочку нашла.']

#### Разделение на слова

In [26]:
from nltk.tokenize import word_tokenize

print(word_tokenize(sentences[0])) # Одно предложение

['Жила', 'в', 'старом', 'лесу', 'белка', '.']


In [27]:
tokens = [] # Весь текст

for sentence in sentences:
    t = word_tokenize(sentence)
    tokens.extend(t)
 
print(tokens)

['Жила', 'в', 'старом', 'лесу', 'белка', '.', 'У', 'белки', 'весной', 'появилась', 'дочка', 'белочка', '.', 'Один', 'раз', 'белка', 'с', 'белочкой', 'собирали', 'грибы', 'на', 'зиму', '.', 'Вдруг', 'на', 'соседней', 'ёлке', 'появилась', 'куница', '.', 'Она', 'приготовилась', 'схватить', 'белочку', '.', 'Мама', '–', 'белка', 'прыгнула', 'навстречу', 'кунице', 'и', 'крикнула', 'дочке', ':', '«', 'Беги', '!', '»', 'Белочка', 'бросилась', 'наутёк', '.', 'Наконец', 'она', 'остановилась', '.', 'Посмотрела', 'по', 'сторонам', ',', 'а', 'места', 'незнакомые', '!', 'Мамы', '–', 'белки', 'нет', '.', 'Что', 'делать', '?', 'Увидела', 'белочка', 'дупло', 'на', 'сосне', ',', 'спряталась', 'и', 'заснула', '.', 'А', 'утром', 'мама', 'дочку', 'нашла', '.']


#### Перевод в нижний регистр, удаление стоп-слов и знаков пунктуации

In [28]:
from nltk.corpus import stopwords
 
# скачаем словарь стоп-слов
nltk.download('stopwords')
 
# используем set, чтобы оставить только уникальные значения
unique_stops = set(stopwords.words('russian'))
 
unique_stops

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\chesh\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


{'а',
 'без',
 'более',
 'больше',
 'будет',
 'будто',
 'бы',
 'был',
 'была',
 'были',
 'было',
 'быть',
 'в',
 'вам',
 'вас',
 'вдруг',
 'ведь',
 'во',
 'вот',
 'впрочем',
 'все',
 'всегда',
 'всего',
 'всех',
 'всю',
 'вы',
 'где',
 'да',
 'даже',
 'два',
 'для',
 'до',
 'другой',
 'его',
 'ее',
 'ей',
 'ему',
 'если',
 'есть',
 'еще',
 'ж',
 'же',
 'за',
 'зачем',
 'здесь',
 'и',
 'из',
 'или',
 'им',
 'иногда',
 'их',
 'к',
 'как',
 'какая',
 'какой',
 'когда',
 'конечно',
 'кто',
 'куда',
 'ли',
 'лучше',
 'между',
 'меня',
 'мне',
 'много',
 'может',
 'можно',
 'мой',
 'моя',
 'мы',
 'на',
 'над',
 'надо',
 'наконец',
 'нас',
 'не',
 'него',
 'нее',
 'ней',
 'нельзя',
 'нет',
 'ни',
 'нибудь',
 'никогда',
 'ним',
 'них',
 'ничего',
 'но',
 'ну',
 'о',
 'об',
 'один',
 'он',
 'она',
 'они',
 'опять',
 'от',
 'перед',
 'по',
 'под',
 'после',
 'потом',
 'потому',
 'почти',
 'при',
 'про',
 'раз',
 'разве',
 'с',
 'сам',
 'свою',
 'себе',
 'себя',
 'сейчас',
 'со',
 'совсем',
 'так

In [29]:
no_stops = []
 
for token in tokens:
    token = token.lower() # перевод в нижний регистр
 
    if token not in unique_stops and token.isalpha(): # token.isalpha() проверка, что не знак пунктуации
        no_stops.append(token)
 
print(no_stops)

['жила', 'старом', 'лесу', 'белка', 'белки', 'весной', 'появилась', 'дочка', 'белочка', 'белка', 'белочкой', 'собирали', 'грибы', 'зиму', 'соседней', 'ёлке', 'появилась', 'куница', 'приготовилась', 'схватить', 'белочку', 'мама', 'белка', 'прыгнула', 'навстречу', 'кунице', 'крикнула', 'дочке', 'беги', 'белочка', 'бросилась', 'наутёк', 'остановилась', 'посмотрела', 'сторонам', 'места', 'незнакомые', 'мамы', 'белки', 'делать', 'увидела', 'белочка', 'дупло', 'сосне', 'спряталась', 'заснула', 'утром', 'мама', 'дочку', 'нашла']


#### Лемматизация

Лемматизация — это процесс приведения слова к его базовой, начальной форме, или лемме.

Лемматизация является важным этапом в обработке естественного языка, поскольку она помогает компьютеру «понимать» различные грамматические формы слова как одно и то же слово.

In [67]:
import pymorphy3

morph = pymorphy3.MorphAnalyzer()
lemmas = [morph.normal_forms(word)[0] for word in no_stops]
lemmas

['жить',
 'старый',
 'лес',
 'белок',
 'белка',
 'весна',
 'появиться',
 'дочка',
 'белочка',
 'белок',
 'белочка',
 'собирать',
 'гриб',
 'зима',
 'соседний',
 'ёлка',
 'появиться',
 'куница',
 'приготовиться',
 'схватить',
 'белочка',
 'мама',
 'белок',
 'прыгнуть',
 'навстречу',
 'куница',
 'крикнуть',
 'дочка',
 'бежать',
 'белочка',
 'броситься',
 'наутёк',
 'остановиться',
 'посмотреть',
 'сторона',
 'место',
 'незнакомый',
 'мама',
 'белка',
 'делать',
 'увидеть',
 'белочка',
 'дупло',
 'сосна',
 'спрятаться',
 'заснуть',
 'утром',
 'мама',
 'дочка',
 'найти']

In [68]:
lemmas = [word if word != "белок" else "белка" for word in lemmas]
print(lemmas)

['жить', 'старый', 'лес', 'белка', 'белка', 'весна', 'появиться', 'дочка', 'белочка', 'белка', 'белочка', 'собирать', 'гриб', 'зима', 'соседний', 'ёлка', 'появиться', 'куница', 'приготовиться', 'схватить', 'белочка', 'мама', 'белка', 'прыгнуть', 'навстречу', 'куница', 'крикнуть', 'дочка', 'бежать', 'белочка', 'броситься', 'наутёк', 'остановиться', 'посмотреть', 'сторона', 'место', 'незнакомый', 'мама', 'белка', 'делать', 'увидеть', 'белочка', 'дупло', 'сосна', 'спрятаться', 'заснуть', 'утром', 'мама', 'дочка', 'найти']


#### Стемминг

Стемминг (stemming), в отличие от лемматизации, ориентирован на поиск основы слова (stem).

In [51]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("russian")

stemmed = [stemmer.stem(s) for s in lemmas]
print(stemmed)

['жит', 'стар', 'лес', 'белк', 'белк', 'весн', 'появ', 'дочк', 'белочк', 'белк', 'белочк', 'собира', 'гриб', 'зим', 'соседн', 'елк', 'появ', 'куниц', 'приготов', 'схват', 'белочк', 'мам', 'белк', 'прыгнут', 'навстреч', 'куниц', 'крикнут', 'дочк', 'бежа', 'белочк', 'брос', 'наутек', 'останов', 'посмотрет', 'сторон', 'мест', 'незнаком', 'мам', 'белк', 'дела', 'увидет', 'белочк', 'дупл', 'сосн', 'спрята', 'заснут', 'утр', 'мам', 'дочк', 'найт']


In [53]:
from collections import Counter

def get_word_frequency(text):
    """Возвращает частоту слов в словаре стем."""
    word_counts = Counter(text)
    return word_counts

get_word_frequency(stemmed)

Counter({'белк': 5,
         'белочк': 5,
         'дочк': 3,
         'мам': 3,
         'появ': 2,
         'куниц': 2,
         'жит': 1,
         'стар': 1,
         'лес': 1,
         'весн': 1,
         'собира': 1,
         'гриб': 1,
         'зим': 1,
         'соседн': 1,
         'елк': 1,
         'приготов': 1,
         'схват': 1,
         'прыгнут': 1,
         'навстреч': 1,
         'крикнут': 1,
         'бежа': 1,
         'брос': 1,
         'наутек': 1,
         'останов': 1,
         'посмотрет': 1,
         'сторон': 1,
         'мест': 1,
         'незнаком': 1,
         'дела': 1,
         'увидет': 1,
         'дупл': 1,
         'сосн': 1,
         'спрята': 1,
         'заснут': 1,
         'утр': 1,
         'найт': 1})

#### Анализ тональности текста

- polarity: Полярность тональности (-1.0 - негатив, 1.0 - позитив, 0.0 - нейтральный)
- subjectivity: Субъективность тональности (0.0 - объективный, 1.0 - субъективный)

Субъективность - это когда автор выражает личное мнение, эмоции, чувства, оценки или интерпретацию событий. В субъективном тексте присутствуют слова, которые отражают индивидуальный взгляд автора

In [61]:
import textblob

def analyze_sentiment(text):
    analysis = textblob.TextBlob(text)
    return {
        'polarity': analysis.sentiment.polarity,
        'subjectivity': analysis.sentiment.subjectivity
    }

sentiment = analyze_sentiment(corpus)

print(f"Полярность: {sentiment['polarity']}")
print(f"Субъективность: {sentiment['subjectivity']}")


Полярность: 0.0
Субъективность: 0.0


Текст имеет нейтральную тональность.
Текст является объективным.

#### Кодирование данных

- <span style="color:#CC0099">OneHot кодирование</span> - это метод преобразования категориальных данных в бинарный вектор, где единица стоит на позиции, соответствующей этой категории, а остальные значения - нули. Главный недостаток большая размерность при наличии большого количества категорий
- <span style="color:#CC0099">Мешок слов (Bag of Words, BoW)</span> - принцип мерода в подсчете частоты встречающихся слов. **Преимущества**: простота, эффективность для обработки больших объемов текста, хорошо работает для некоторых задач (например, в задачах классификации текста, где порядок слов не так важен (классификация спама, определение темы текста)). **Недостатки**: потеря информации о порядке слов, проблема потери важной информации, если она встречается редко (иногда редкие слова не попадают в мешок).
- <span style="color:#CC0099">TF-IDF (Term Frequency-Inverse Document Frequency)</span> - Учитывает как частоту слова в тексте, так и его редкость в наборе данных. Его суть: Если слово часто встречается во всех документах (это в первую очередь касается предлогов, союзов и других стоп-слов), то вряд ли эти слова имеют большое значение. И наоборот, если слово встречаться только в одном документе, вероятно оно в большей степени определяет его содержание.
- <span style="color:#CC0099">Word2Vec</span> - Представляет слова в виде векторов, которые учитывают семантические отношения между словами.
- <span style="color:#CC0099">BERT</span> - Более продвинутый алгоритм, который учитывает контекст слова в тексте.

In [69]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
lemmas_for_onehot = [[lemma] for lemma in lemmas]
encoded_lemmas = encoder.fit_transform(lemmas_for_onehot)
encoded_lemmas

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [74]:
print(f"Размерность после OneHot кодирования: {encoded_lemmas.shape}")
print(f"Количество слов в тексте: {len(lemmas)}")
unique_lemmas = set(lemmas)
print(f"Количество неповторяющихся слов: {len(unique_lemmas)}")

Размерность после OneHot кодирования: (50, 36)
Количество слов в тексте: 50
Количество неповторяющихся слов: 36


In [79]:
def create_bow_vector(lemmas, vocabulary):
    bow_vector = [0] * len(vocabulary)
    for lemma in lemmas:
        if lemma in vocabulary:
            index = vocabulary.index(lemma)
            bow_vector[index] += 1
    return bow_vector

vocabulary = list(set(lemmas)) # получаем уникальные леммы
print(f"Словарь: {vocabulary}")

bow_vector = create_bow_vector(lemmas, vocabulary)
print(f"Вектор 'Мешок слов': {bow_vector}, \n его длина {len(bow_vector)}")

Словарь: ['зима', 'жить', 'старый', 'схватить', 'дупло', 'наутёк', 'незнакомый', 'белка', 'дочка', 'делать', 'броситься', 'прыгнуть', 'собирать', 'утром', 'куница', 'крикнуть', 'появиться', 'лес', 'место', 'сосна', 'навстречу', 'соседний', 'мама', 'приготовиться', 'заснуть', 'найти', 'посмотреть', 'гриб', 'бежать', 'весна', 'белочка', 'сторона', 'ёлка', 'остановиться', 'увидеть', 'спрятаться']
Вектор 'Мешок слов': [1, 1, 1, 1, 1, 1, 1, 5, 3, 1, 1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 5, 1, 1, 1, 1, 1], 
 его длина 36
