### Обработка естественного языка (Natural Language Processing, NLP)

In [1]:
import nltk  # pip install nltk
import pandas as pd
import numpy as np
import os

In [24]:
corpus = """Жила в старом лесу белка. У белки весной появилась дочка белочка. Один раз белка с белочкой собирали грибы на зиму. Вдруг на соседней ёлке появилась куница. Она приготовилась схватить белочку. Мама – белка прыгнула навстречу кунице и крикнула дочке: «Беги!» Белочка бросилась наутёк. Наконец она остановилась. Посмотрела по сторонам, а места незнакомые! Мамы – белки нет. Что делать? Увидела белочка дупло на сосне, спряталась и заснула. А утром мама дочку нашла."""
corpus

'Жила в старом лесу белка. У белки весной появилась дочка белочка. Один раз белка с белочкой собирали грибы на зиму. Вдруг на соседней ёлке появилась куница. Она приготовилась схватить белочку. Мама – белка прыгнула навстречу кунице и крикнула дочке: «Беги!» Белочка бросилась наутёк. Наконец она остановилась. Посмотрела по сторонам, а места незнакомые! Мамы – белки нет. Что делать? Увидела белочка дупло на сосне, спряталась и заснула. А утром мама дочку нашла.'

#### Разделение на предложения (токенизация)

In [25]:
from nltk.tokenize import sent_tokenize

# скачиваем модель, которая будет делить на предложения
nltk.download('punkt')
nltk.download('punkt_tab')
 
sentences = sent_tokenize(corpus, language='russian')
sentences

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\chesh\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\chesh\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


['Жила в старом лесу белка.',
 'У белки весной появилась дочка белочка.',
 'Один раз белка с белочкой собирали грибы на зиму.',
 'Вдруг на соседней ёлке появилась куница.',
 'Она приготовилась схватить белочку.',
 'Мама – белка прыгнула навстречу кунице и крикнула дочке: «Беги!» Белочка бросилась наутёк.',
 'Наконец она остановилась.',
 'Посмотрела по сторонам, а места незнакомые!',
 'Мамы – белки нет.',
 'Что делать?',
 'Увидела белочка дупло на сосне, спряталась и заснула.',
 'А утром мама дочку нашла.']

#### Разделение на слова

In [26]:
from nltk.tokenize import word_tokenize

print(word_tokenize(sentences[0])) # Одно предложение

['Жила', 'в', 'старом', 'лесу', 'белка', '.']


In [27]:
tokens = [] # Весь текст

for sentence in sentences:
    t = word_tokenize(sentence)
    tokens.extend(t)
 
print(tokens)

['Жила', 'в', 'старом', 'лесу', 'белка', '.', 'У', 'белки', 'весной', 'появилась', 'дочка', 'белочка', '.', 'Один', 'раз', 'белка', 'с', 'белочкой', 'собирали', 'грибы', 'на', 'зиму', '.', 'Вдруг', 'на', 'соседней', 'ёлке', 'появилась', 'куница', '.', 'Она', 'приготовилась', 'схватить', 'белочку', '.', 'Мама', '–', 'белка', 'прыгнула', 'навстречу', 'кунице', 'и', 'крикнула', 'дочке', ':', '«', 'Беги', '!', '»', 'Белочка', 'бросилась', 'наутёк', '.', 'Наконец', 'она', 'остановилась', '.', 'Посмотрела', 'по', 'сторонам', ',', 'а', 'места', 'незнакомые', '!', 'Мамы', '–', 'белки', 'нет', '.', 'Что', 'делать', '?', 'Увидела', 'белочка', 'дупло', 'на', 'сосне', ',', 'спряталась', 'и', 'заснула', '.', 'А', 'утром', 'мама', 'дочку', 'нашла', '.']


#### Перевод в нижний регистр, удаление стоп-слов и знаков пунктуации

In [28]:
from nltk.corpus import stopwords
 
# скачаем словарь стоп-слов
nltk.download('stopwords')
 
# используем set, чтобы оставить только уникальные значения
unique_stops = set(stopwords.words('russian'))
 
unique_stops

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\chesh\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


{'а',
 'без',
 'более',
 'больше',
 'будет',
 'будто',
 'бы',
 'был',
 'была',
 'были',
 'было',
 'быть',
 'в',
 'вам',
 'вас',
 'вдруг',
 'ведь',
 'во',
 'вот',
 'впрочем',
 'все',
 'всегда',
 'всего',
 'всех',
 'всю',
 'вы',
 'где',
 'да',
 'даже',
 'два',
 'для',
 'до',
 'другой',
 'его',
 'ее',
 'ей',
 'ему',
 'если',
 'есть',
 'еще',
 'ж',
 'же',
 'за',
 'зачем',
 'здесь',
 'и',
 'из',
 'или',
 'им',
 'иногда',
 'их',
 'к',
 'как',
 'какая',
 'какой',
 'когда',
 'конечно',
 'кто',
 'куда',
 'ли',
 'лучше',
 'между',
 'меня',
 'мне',
 'много',
 'может',
 'можно',
 'мой',
 'моя',
 'мы',
 'на',
 'над',
 'надо',
 'наконец',
 'нас',
 'не',
 'него',
 'нее',
 'ней',
 'нельзя',
 'нет',
 'ни',
 'нибудь',
 'никогда',
 'ним',
 'них',
 'ничего',
 'но',
 'ну',
 'о',
 'об',
 'один',
 'он',
 'она',
 'они',
 'опять',
 'от',
 'перед',
 'по',
 'под',
 'после',
 'потом',
 'потому',
 'почти',
 'при',
 'про',
 'раз',
 'разве',
 'с',
 'сам',
 'свою',
 'себе',
 'себя',
 'сейчас',
 'со',
 'совсем',
 'так

In [29]:
no_stops = []
 
for token in tokens:
    token = token.lower() # перевод в нижний регистр
 
    if token not in unique_stops and token.isalpha(): # token.isalpha() проверка, что не знак пунктуации
        no_stops.append(token)
 
print(no_stops)

['жила', 'старом', 'лесу', 'белка', 'белки', 'весной', 'появилась', 'дочка', 'белочка', 'белка', 'белочкой', 'собирали', 'грибы', 'зиму', 'соседней', 'ёлке', 'появилась', 'куница', 'приготовилась', 'схватить', 'белочку', 'мама', 'белка', 'прыгнула', 'навстречу', 'кунице', 'крикнула', 'дочке', 'беги', 'белочка', 'бросилась', 'наутёк', 'остановилась', 'посмотрела', 'сторонам', 'места', 'незнакомые', 'мамы', 'белки', 'делать', 'увидела', 'белочка', 'дупло', 'сосне', 'спряталась', 'заснула', 'утром', 'мама', 'дочку', 'нашла']


#### Лемматизация

Лемматизация — это процесс приведения слова к его базовой, начальной форме, или лемме.

Лемматизация является важным этапом в обработке естественного языка, поскольку она помогает компьютеру «понимать» различные грамматические формы слова как одно и то же слово.

In [30]:
from nltk.stem import WordNetLemmatizer
 
nltk.download('wordnet')
lemmatizer = WordNetLemmatizer()

lemmatized = []
 
for token in no_stops:
    token = lemmatizer.lemmatize(token)
    lemmatized.append(token)
    
print(lemmatized)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\chesh\AppData\Roaming\nltk_data...


['жила', 'старом', 'лесу', 'белка', 'белки', 'весной', 'появилась', 'дочка', 'белочка', 'белка', 'белочкой', 'собирали', 'грибы', 'зиму', 'соседней', 'ёлке', 'появилась', 'куница', 'приготовилась', 'схватить', 'белочку', 'мама', 'белка', 'прыгнула', 'навстречу', 'кунице', 'крикнула', 'дочке', 'беги', 'белочка', 'бросилась', 'наутёк', 'остановилась', 'посмотрела', 'сторонам', 'места', 'незнакомые', 'мамы', 'белки', 'делать', 'увидела', 'белочка', 'дупло', 'сосне', 'спряталась', 'заснула', 'утром', 'мама', 'дочку', 'нашла']
