# Введение в обработку текста на естественном языке

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Введение в обработку текста на естественном языке"
* https://www.nltk.org/api/nltk.metrics.distance.html
* https://pymorphy2.readthedocs.io/en/stable/user/guide.html
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [None]:
!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
     -------------------------------------- 55.5/55.5 kB 415.1 kB/s eta 0:00:00
Collecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
     ---------------------------------------- 8.2/8.2 MB 395.9 kB/s eta 0:00:00
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py): started
  Building wheel for docopt (setup.py): finished with status 'done'
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13706 sha256=274c550b4500380f3454f1b04c5aea492d6bcc0bd5b14c77573b5cb3da0b73c3
  Stored in directory: c:\users\user\appdata\local\pip\cache\wheels

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. При помощи расстояния Левенштейна иправьте опечатку в слове "велечайшим".

In [None]:
from nltk import edit_distance

with open("litw-win.txt", "r", encoding="windows-1251") as fp:
    lines = fp.readlines()

import re

patt = re.compile(r"[а-яё]+")
words = [patt.findall(line)[0] for line in lines]

lines[:3]

s = "велечайшим"
min(
    words,
    key=lambda w: edit_distance(w, s)
)

'величайшим'

2. Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.

In [None]:
from nltk.stem import SnowballStemmer
from nltk import word_tokenize
import pymorphy2

text = '''Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.'''

words = word_tokenize(text)
words[:5]

stemmer = SnowballStemmer("russian")
[stemmer.stem(w) for w in words]

morph = pymorphy2.MorphAnalyzer()
[morph.parse(w)[0].normal_form for w in words]

dir(morph.parse(words[0])[0])

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__slots__',
 '__str__',
 '__subclasshook__',
 '_asdict',
 '_dict',
 '_field_defaults',
 '_fields',
 '_fields_defaults',
 '_make',
 '_morph',
 '_replace',
 'count',
 'index',
 'inflect',
 'is_known',
 'lexeme',
 'make_agree_with_number',
 'methods_stack',
 'normal_form',
 'normalized',
 'score',
 'tag',
 'word']

3. Преобразуйте предложения из формулировки задания 2 в векторы при помощи `CountVectorizer`. Выведите на экран словарь обученного токенизатора.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk import sent_tokenize

text = '''Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.'''

sents = nltk.sent_tokenize(text)
sents

vectorizer = CountVectorizer()
vectorizer.fit(sents)
vectorizer.transform(sents).toarray()

vectorizer.vocabulary_

{'разбейте': 6,
 'текст': 10,
 'из': 2,
 'формулировки': 11,
 'второго': 0,
 'задания': 1,
 'на': 4,
 'слова': 8,
 'проведите': 5,
 'стемминг': 9,
 'лемматизацию': 3,
 'слов': 7}

## Лабораторная работа 7

1\. Загрузите данные из файла `ru_recipes_sample.csv` в виде `pd.DataFrame` `recipes` Используя регулярные выражения, удалите из описаний (столбец `description`) все символы, кроме русских букв, цифр и пробелов. Приведите все слова в описании к нижнему регистру. Сохраните полученный результат в столбец `description`.

In [None]:
pip install python-Levenshtein

Collecting python-Levenshtein
  Downloading python_Levenshtein-0.20.8-py3-none-any.whl (9.4 kB)
Collecting Levenshtein==0.20.8
  Downloading Levenshtein-0.20.8-cp38-cp38-win_amd64.whl (100 kB)
     ------------------------------------ 100.7/100.7 kB 822.1 kB/s eta 0:00:00
Collecting rapidfuzz<3.0.0,>=2.3.0
  Downloading rapidfuzz-2.13.6-cp38-cp38-win_amd64.whl (1.0 MB)
     ---------------------------------------- 1.0/1.0 MB 3.7 MB/s eta 0:00:00
Installing collected packages: rapidfuzz, Levenshtein, python-Levenshtein
Successfully installed Levenshtein-0.20.8 python-Levenshtein-0.20.8 rapidfuzz-2.13.6
Note: you may need to restart the kernel to use updated packages.


In [None]:
import pandas as pd
import re
from nltk.tokenize import word_tokenize
from Levenshtein import distance as lev
import random
from nltk.stem import SnowballStemmer
import pymorphy2
from sklearn.feature_extraction.text import (TfidfVectorizer)
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
recipes = pd.read_csv('ru_recipes_sample.csv')
simb = r'[а-яё0-9 ]+'
recipes['description'] = recipes['description'].str.lower()
recipes['description'] = recipes['description'].str.findall(simb)
recipes['description'] = recipes['description'].apply(''.join)
display(recipes)

Unnamed: 0,url,name,ingredients,description
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль,"{'Молоко': '250 мл', 'Клубника': '200 г', 'Сах...",этот коктейль готовлю из замороженной клубники...
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики,"{'Сыр твердый': None, 'Чеснок': None, 'Яйцо ку...",быстро и вкусно
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик""","{'Баклажан': '3 шт', 'Лук репчатый': '2 шт', '...",сытный овощной салатик пальчики оближете
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке,"{'Фарш куриный': '800 г', 'Пюре картофельное':...",картофельное пюре и куриные котлеты вкусная к...
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки,"{'Вишня': '1 кг', 'Водка': '1 л', 'Сахар': '30...",вишневая наливка имеет яркий вишневый вкус кот...
...,...,...,...,...
3462,https://www.povarenok.ru/recipes/show/54574/,Мшош,"{'Чечевица': '1 стак.', 'Лук репчатый': '2 шт'...",для тех кто любит чечевицу вам сюда очень вкус...
3463,https://www.povarenok.ru/recipes/show/113494/,Мясные треугольники с баклажаном,"{'Фарш мясной': '400 г', 'Баклажан': '1 шт', '...",баклажановые фантазии продолжаются предлагаю в...
3464,https://www.povarenok.ru/recipes/show/83228/,"""Болоньез"" по-новому","{'Фарш мясной': '400 г', 'Томаты в собственном...",мое любимое блюдо лазанья но кушать только фар...
3465,https://www.povarenok.ru/recipes/show/172238/,Варенье из одуванчиков с апельсинами,"{'Цветки': '400 г', 'Сахар': '1300 г', 'Апельс...",прошлым летом варила варенье из одуванчиков по...


In [None]:
from nltk.metrics.distance import edit_distance
print(edit_distance('пак', 'кап'))
print(edit_distance('интернацирнальный', 'йнтернацирнальныи'))

2
2


### Расстояние редактирования

2\. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние Левенштейна. Выведите на экран результат в следующем виде:

```
d(word1, word2) = x
```

In [None]:
words = []
def func(s):
    for word in word_tokenize(s):
        if word not in words and word.isalpha():
            words.append(word)
recipes['description'].apply(func)
rand_index = random.sample(words,10)
for i in range(0, 10, 2):
    print(f"d({rand_index[i]}, {rand_index[i+1]}) = {lev(rand_index[i], rand_index[i+1])}")

d(присутствие, порадуйте) = 7
d(авторов, америку) = 6
d(достала, необходимое) = 10
d(тушный, коктейль) = 7
d(неравнодушным, крекерами) = 12


3\. Напишите функцию, которая принимает на вход 2 текстовые строки `s1` и `s2` и при помощи расстояния Левенштейна определяет, является ли строка `s2` плагиатом `s1`. Функция должна реализовывать следующую логику: для каждого слова `w1` из `s1` проверяет, есть в `s2` хотя бы одно слово `w2`, такое, что расстояние Левенштейна между `w1` и `w2` меньше 2, и считает количество таких слов в `s1` $P$.

$$ P = \#\{w_1 \in s_1\ | \exists w_2 \in s_2 : d(w_1, w_2) < tol\}$$

$$ L = max(|s1|, |s2|) $$

Здесь $|\cdot|$ - количество слов в строке, $\#A$ - число элементов в множестве $A$, $w \in s$ означает, что слово $w$ содержится в тексте $s$.

Если отношение $P / L$ больше 0.8, то функция должна вернуть True; иначе False.

Продемонстрируйте работу вашей функции на примере описаний двух рецептов с ID 135488 и 851934 (ID рецепта - это число, стоящее в конце url рецепта). Выведите на экран описания этих рецептов и результат работы функции.

In [None]:
def is_plagiarism(s1: str, s2: str) -> bool:
    s1, s2 = word_tokenize(s1), word_tokenize(s2)
    count = 0
    for i in s1:
        for j in s1:
            if lev(i, j) < 2:
                count += 1
    l = max(len(s1), len(s2))
    return True if count/l > 0.8 else False
id = r'(135488|851934)'
rec = recipes[recipes['url'].str.contains(id)]['description'].values
print(rec)
is_plagiarism(rec[0], rec[1])

['прекрасной закуской к крепким напиткам на фуршетном столе станет паштет из сала и авокадо с чесноком который мы спрячем в орешках из бородинского хлеба положив в середину маслину закуска получается необычной оригинальной и ценится особенно мужчинами'
 'замечательной закуской к напиткам на фуршетном столе станет паштет из сала и авокадо с чесноком куда мы добавим орешков из бородинского хлеба положив в середину маслины закуска получается крайне необычной оригинальной и ценится особенно мужчинами']


  rec = recipes[recipes['url'].str.contains(id)]['description'].values


True

### Стемминг, лемматизация

4\. На основе набора слов из задания 2 создайте `pd.DataFrame` со столбцами `word`, `stemmed_word` и `normalized_word`. В столбец `stemmed_word` поместите версию слова после проведения процедуры стемминга; в столбец `normalized_word` поместите версию слова после проведения процедуры лемматизации. Столбец `word` укажите в качестве индекса.

Для стемминга можно воспользоваться `SnowballStemmer` из `nltk`, для лемматизации слов - пакетом `pymorphy2`. Сравните результаты стемминга и лемматизации. Поясните на примере одной из строк получившегося фрейма (в виде текстового комментария), в чем разница между двумя этими подходами.

In [None]:
stemmed_word = SnowballStemmer("russian")
form_words = pd.DataFrame(data=[stemmed_word.stem(w) for w in words], columns=['stemmed_word'], index=words)
morph = pymorphy2.MorphAnalyzer()
p = morph.parse('стали')[0]
print(p)
form_words['normalized_word'] = [morph.parse(w)[0].normal_form for w in words]
form_words

Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.975342, methods_stack=((DictionaryAnalyzer(), 'стали', 945, 4),))


Unnamed: 0,stemmed_word,normalized_word
этот,этот,этот
коктейль,коктейл,коктейль
готовлю,готовл,готовить
из,из,из
замороженной,заморожен,заморозить
...,...,...
сбывается,сбыва,сбываться
подружим,подруж,подружить
одинаковых,одинаков,одинаковый
задорных,задорн,задорный


5\. Добавьте в таблицу `recipes` столбец `description_no_stopwords`, в котором содержится текст описания рецепта после удаления из него стоп-слов. Посчитайте и выведите на экран долю стоп-слов среди общего количества слов. Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [None]:
from nltk.corpus import stopwords
ru_stop_words = stopwords.words('russian')

def stop(s):
    mass = []
    for word in word_tokenize(s):
        if word not in ru_stop_words:
            mass.append(word)
    return ' '.join(mass)

recipes['description_no_stopwords'] = recipes.description.apply(stop)
display(recipes)

len_desc = sum(recipes.description.str.len())
len_desc_no_stopwords = sum(recipes.description_no_stopwords.str.len())
print(f'{(len_desc-len_desc_no_stopwords)/len_desc * 100} %')


def words_count(s, lst):
    for word in word_tokenize(s):
        if word.isalpha():
            lst.append(word)

lst_desc = []
lst_desc_no_stop = []
recipes.description.apply(lambda s: words_count(s, lst_desc))
recipes.description_no_stopwords.apply(lambda s: words_count(s, lst_desc_no_stop))

print(pd.Series(lst_desc).value_counts()[:10])
print(pd.Series(lst_desc_no_stop).value_counts()[:10])

Unnamed: 0,url,name,ingredients,description,description_no_stopwords
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль,"{'Молоко': '250 мл', 'Клубника': '200 г', 'Сах...",этот коктейль готовлю из замороженной клубники...,коктейль готовлю замороженной клубники клубник...
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики,"{'Сыр твердый': None, 'Чеснок': None, 'Яйцо ку...",быстро и вкусно,быстро вкусно
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик""","{'Баклажан': '3 шт', 'Лук репчатый': '2 шт', '...",сытный овощной салатик пальчики оближете,сытный овощной салатик пальчики оближете
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке,"{'Фарш куриный': '800 г', 'Пюре картофельное':...",картофельное пюре и куриные котлеты вкусная к...,картофельное пюре куриные котлеты вкусная клас...
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки,"{'Вишня': '1 кг', 'Водка': '1 л', 'Сахар': '30...",вишневая наливка имеет яркий вишневый вкус кот...,вишневая наливка имеет яркий вишневый вкус кот...
...,...,...,...,...,...
3462,https://www.povarenok.ru/recipes/show/54574/,Мшош,"{'Чечевица': '1 стак.', 'Лук репчатый': '2 шт'...",для тех кто любит чечевицу вам сюда очень вкус...,тех любит чечевицу сюда очень вкусная чечевичн...
3463,https://www.povarenok.ru/recipes/show/113494/,Мясные треугольники с баклажаном,"{'Фарш мясной': '400 г', 'Баклажан': '1 шт', '...",баклажановые фантазии продолжаются предлагаю в...,баклажановые фантазии продолжаются предлагаю в...
3464,https://www.povarenok.ru/recipes/show/83228/,"""Болоньез"" по-новому","{'Фарш мясной': '400 г', 'Томаты в собственном...",мое любимое блюдо лазанья но кушать только фар...,мое любимое блюдо лазанья кушать фарш поднадое...
3465,https://www.povarenok.ru/recipes/show/172238/,Варенье из одуванчиков с апельсинами,"{'Цветки': '400 г', 'Сахар': '1300 г', 'Апельс...",прошлым летом варила варенье из одуванчиков по...,прошлым летом варила варенье одуванчиков рецеп...


16.528816063654062 %
и         5043
в         2567
с         1932
на        1642
очень     1594
не        1515
из        1005
я          972
а          850
рецепт     843
dtype: int64
очень          1594
рецепт          843
это             728
блюдо           521
вкусный         459
просто          434
вкусно          366
приготовить     342
вкус            319
салат           312
dtype: int64


### Векторное представление текста

6\. Выберите случайным образом 5 рецептов из набора данных, в названии которых есть слово "оладьи" (без учета регистра). Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`. На основе полученных векторов создайте `pd.DataFrame`, в котором названия колонок соответствуют словам из словаря объекта-векторизатора.

Примечание: обратите внимание на порядок слов при создании колонок.

In [None]:
def olad(s):
    if 'оладьи' in s.lower():
        return True
    return False

oladyi = recipes[recipes.name.apply(olad)]
sample_5_olad = oladyi.sample(5)
vect_olad = sample_5_olad.description
tv = TfidfVectorizer()
corpus_tv = tv.fit_transform(vect_olad)
df_olad = pd.DataFrame(data=corpus_tv.toarray(), columns=tv.get_feature_names_out())
display(df_olad)

Unnamed: 0,без,белки,блюдаособенно,богу,вам,вас,вкус,вкусно,встретила,главное,...,украине,улучшает,урожай,хороши,хороший,черешки,чечевица,читайте,этих,этом
0,0.0,0.171618,0.171618,0.0,0.0,0.0,0.13846,0.0,0.0,0.0,...,0.0,0.171618,0.0,0.171618,0.0,0.171618,0.171618,0.0,0.0,0.13846
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.195547,0.157766,0.0,0.0,0.0,0.0,0.0,...,0.195547,0.0,0.195547,0.0,0.195547,0.0,0.0,0.195547,0.0,0.157766
3,0.250808,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.250808,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.250808,0.0
4,0.0,0.0,0.0,0.0,0.211869,0.262607,0.211869,0.262607,0.0,0.262607,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


7\. Вычислите близость между каждой парой рецептов, выбранных в задании 6, используя косинусное расстояние (можно воспользоваться функциями из любого пакета: `scipy`, `scikit-learn` или реализовать функцию самому). Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

Примечание: обратите внимание, что $d_{cosine}(x, x) = 0$

In [None]:
name_olad = sample_5_olad.name
cosin_olad = pd.DataFrame(data=cosine_similarity(df_olad, df_olad), columns=name_olad, index=name_olad)
cosin_olad

name,"Оладьи из сельдерея, кабачков, феты и чечевицы",Тыквенные оладьи с лимоном,Оладьи кабачковые с секретом,"Оладьи ""Кошкин пир""",Оладьи из кабачков и киноа
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"Оладьи из сельдерея, кабачков, феты и чечевицы",1.0,0.0,0.043689,0.0,0.029335
Тыквенные оладьи с лимоном,0.0,1.0,0.0,0.0,0.0
Оладьи кабачковые с секретом,0.043689,0.0,1.0,0.043995,0.146341
"Оладьи ""Кошкин пир""",0.0,0.0,0.043995,1.0,0.059082
Оладьи из кабачков и киноа,0.029335,0.0,0.146341,0.059082,1.0


8\. Напишите функцию, которая принимает на вход `pd.DataFrame`, полученный в задании 7, и возвращает в виде кортежа названия двух различных рецептов, которые являются наиболее похожими. Прокомментируйте результат (в виде текстового комментария). Для объяснения результата сравните слова в описаниях двух этих отзывов.

In [None]:
def find_closest(df):
    max = 0
    recipeCos = []
    for i in df.index:
        for j in df.columns:
            if i!= j and df.loc[i,j] > max:
                max = df.loc[i,j]
                recipeCos = [i, j]
    return (recipeCos[0], recipeCos[1])
print(find_closest(cosin_olad) )

('Оладьи кабачковые с секретом', 'Оладьи из кабачков и киноа')


In [None]:
sample_5_olad

Unnamed: 0,url,name,ingredients,description,description_no_stopwords
1139,https://www.povarenok.ru/recipes/show/6443/,Куриные оладьи,"{'Грудка куриная': None, 'Лук репчатый': '2 шт...",на скорую руку за фото к рецепту спасибо людми...,скорую руку фото рецепту спасибо людмиле сурик
2506,https://www.povarenok.ru/recipes/show/57827/,Нежные куриные оладьи,"{'Филе куриное': '500 г', 'Сыр плавленый': '2 ...",нежные сочные оладьи и очень очень очень вкусные,нежные сочные оладьи очень очень очень вкусные
2830,https://www.povarenok.ru/recipes/show/161557/,Оладьи из печени,"{'Печень говяжья': '1000 г', 'Лук репчатый': '...",31 декабря рабочий день времени на подготовку...,31 декабря рабочий день времени подготовку пра...
1846,https://www.povarenok.ru/recipes/show/138148/,Оладьи с изюмом,"{'Кефир': '0.5 л', 'Яйцо куриное': '1 шт', 'Со...",вкусные домашние оладушки с изюмомугощайтесь,вкусные домашние оладушки изюмомугощайтесь
1595,https://www.povarenok.ru/recipes/show/109738/,Оладьи из кабачков и киноа,"{'Киноа': '100 г', 'Вода': '200 мл', 'Кабачок'...",предлагаю вам попробовать интересный вкус олад...,предлагаю попробовать интересный вкус оладушек...


In [None]:
print(sample_5_olad[sample_5_olad['name'] == 'Оладьи кабачковые с секретом']['description'].values)
print(sample_5_olad[sample_5_olad['name'] == 'Оладьи из кабачков и киноа']['description'].values)

['предлагаю вам свою интерпретацию оладьи из кабачков лето с секретомкабачок сезонный овощ к тому же очень доступныйа в этом году слава богу у нас в украине хороший урожай овощей и зеленио секрете читайте пожалуйста в рецепте']
['предлагаю вам попробовать интересный вкус оладушек из кабачков и киноа сочетание очень интересное а главное вкусно приглашаю вас угоститься']
