# Введение в обработку текста на естественном языке

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Введение в обработку текста на естественном языке"
* https://www.nltk.org/api/nltk.metrics.distance.html
* https://pymorphy2.readthedocs.io/en/stable/user/guide.html
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
#!pip install pymorphy2

In [2]:
import nltk
import pandas as pd
import numpy as np
import re
#nltk.download('punkt')

  from pandas.core.computation.check import NUMEXPR_INSTALLED


1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. При помощи расстояния Левенштейна иправьте опечатку в слове "велечайшим".

In [3]:
from nltk import edit_distance

with open('C:\\Users\\Артём\\OneDrive - ФГОБУ ВО Финансовый университет при Правительстве РФ\\Учёба\\3 курс\\Технологии обработки BD\\ТОБД22-ПМ20-Материалы к семинарам\\07_nlp\\07_nlp_data\\litw-win.txt',
        'r' 
) as fp:
    words = []
    tokenize = nltk.tokenize.RegexpTokenizer(r"[a-zA-Z]+")
    for word in fp:
        words.append(word.split()[-1])
        
len(words)    

162166

2. Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.

In [4]:
from nltk.stem import SnowballStemmer
from nltk import word_tokenize
import pymorphy2

In [5]:
text = "Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов."
tokenize = nltk.tokenize.RegexpTokenizer(r"\w+")
words = tokenize.tokenize(text)

stemmer = SnowballStemmer("russian")
stemming = [stemmer.stem(word) for word in words]
stemming

['разб',
 'текст',
 'из',
 'формулировк',
 'втор',
 'задан',
 'на',
 'слов',
 'провед',
 'стемминг',
 'и',
 'лемматизац',
 'слов']

## Лемматизация слов

In [6]:
morph = pymorphy2.MorphAnalyzer()
for word in words:
    p = morph.parse(word)[0]
    print(p.normal_form)

разбить
текст
из
формулировка
второй
задание
на
слово
провести
стемминг
и
лемматизация
слово


3. Преобразуйте предложения из формулировки задания 2 в векторы при помощи `CountVectorizer`. Выведите на экран словарь обученного токенизатора.

In [7]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk import sent_tokenize

In [8]:
text = '''Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.'''

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(words)
#vectorizer.get_feature_names_out()

In [9]:
print(X.toarray())

[[0 0 0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 0 0 0]]


## Лабораторная работа 7

1\. Загрузите данные из файла `ru_recipes_sample.csv` в виде `pd.DataFrame` `recipes` Используя регулярные выражения, удалите из описаний (столбец `description`) все символы, кроме русских букв, цифр и пробелов. Приведите все слова в описании к нижнему регистру. Сохраните полученный результат в столбец `description`.

In [10]:
pwd

'C:\\Users\\Артём\\OneDrive - ФГОБУ ВО Финансовый университет при Правительстве РФ\\Учёба\\3 курс\\Технологии обработки BD\\ТОБД22-ПМ20-Материалы к семинарам\\07_nlp'

In [11]:
recipes = pd.read_csv('C:\\Users\\Артём\\OneDrive - ФГОБУ ВО Финансовый университет при Правительстве РФ\\Учёба\\3 курс\\Технологии обработки BD\\ТОБД22-ПМ20-Материалы к семинарам\\07_nlp\\07_nlp_data\\ru_recipes_sample.csv', sep=',')
recipes.head(5)

Unnamed: 0,url,name,ingredients,description
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль,"{'Молоко': '250 мл', 'Клубника': '200 г', 'Сах...",Этот коктейль готовлю из замороженной клубники...
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики,"{'Сыр твердый': None, 'Чеснок': None, 'Яйцо ку...",Быстро и вкусно.
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик""","{'Баклажан': '3 шт', 'Лук репчатый': '2 шт', '...","Сытный, овощной салатик, пальчики оближете."
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке,"{'Фарш куриный': '800 г', 'Пюре картофельное':...",Картофельное пюре и куриные котлеты - вкусная ...
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки,"{'Вишня': '1 кг', 'Водка': '1 л', 'Сахар': '30...","Вишневая наливка имеет яркий вишневый вкус, ко..."


In [12]:
recipes.shape

(3467, 4)

In [13]:
recipes["description"] = recipes["description"].apply(lambda x: re.sub(r'[^а-яА-ЯёЁ0-9\s]', '', str(x)).lower())
recipes["description"] 

0       этот коктейль готовлю из замороженной клубники...
1                                         быстро и вкусно
2                сытный овощной салатик пальчики оближете
3       картофельное пюре и куриные котлеты  вкусная к...
4       вишневая наливка имеет яркий вишневый вкус кот...
                              ...                        
3462    для тех кто любит чечевицу вам сюда очень вкус...
3463    баклажановые фантазии продолжаются предлагаю в...
3464    мое любимое блюдо лазанья но кушать только фар...
3465    прошлым летом варила варенье из одуванчиков по...
3466     и три корочки хлеба  сделал заказ буратино в ...
Name: description, Length: 3467, dtype: object

### Расстояние редактирования

2\. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние Левенштейна. Выведите на экран результат в следующем виде:

```
d(word1, word2) = x
```

In [14]:
string_description = ' '.join(recipes["description"]) # Строка со всеми описаниями рецептов

In [15]:
from nltk import word_tokenize, edit_distance

words = list(set(word_tokenize(string_description)))
words[115:125]

['подарками',
 'вспомнилась',
 'лисички',
 'гречку',
 'лепту',
 'кабачка',
 'вытеснили',
 'понимании',
 'грудки',
 'копилка']

### Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние Левенштейна.

In [16]:
for i in range(5):
    pair = np.random.choice(words,size=2, replace=False)
    print(f'd({pair[0]}, {pair[1]}) = {edit_distance(*pair)}')

d(перловки, льда) = 7
d(теряет, сооружение) = 8
d(утра, лёгкая) = 5
d(свежим, деток) = 5
d(кушали, скудном) = 5


3\. Напишите функцию, которая принимает на вход 2 текстовые строки `s1` и `s2` и при помощи расстояния Левенштейна определяет, является ли строка `s2` плагиатом `s1`. Функция должна реализовывать следующую логику: для каждого слова `w1` из `s1` проверяет, есть в `s2` хотя бы одно слово `w2`, такое, что расстояние Левенштейна между `w1` и `w2` меньше 2, и считает количество таких слов в `s1` $P$. 

$$ P = \#\{w_1 \in s_1\ | \exists w_2 \in s_2 : d(w_1, w_2) < tol\}$$

$$ L = max(|s1|, |s2|) $$

Здесь $|\cdot|$ - количество слов в строке, $\#A$ - число элементов в множестве $A$, $w \in s$ означает, что слово $w$ содержится в тексте $s$.

Если отношение $P / L$ больше 0.8, то функция должна вернуть True; иначе False.

Продемонстрируйте работу вашей функции на примере описаний двух рецептов с ID 135488 и 851934 (ID рецепта - это число, стоящее в конце url рецепта). Выведите на экран описания этих рецептов и результат работы функции.

### Создадим столбец ID 

In [17]:
recipes['ID'] = recipes['url'].str.extract(r"\/(\d+)\/").astype(int)
recipes.reset_index(drop=True, inplace=True )
recipes.set_index('ID', inplace=True)

### Продемонстрируйте работу вашей функции на примере описаний двух рецептов с ID 135488 и 851934

In [18]:
def is_plagiarism(s1: str, s2: str) -> bool:
    P = 0
    L = max(len(word_tokenize(s1)), len(word_tokenize(s2)))
    for w1 in word_tokenize(s1):
        for w2 in word_tokenize(s2):
            if edit_distance(w1,w2) <= 2:
                P += 1
                break
    if P/L > 0.8:
        return True 
    else:
        return False    

In [19]:
recipes['description'].loc[135488]

'прекрасной закуской к крепким напиткам на фуршетном столе станет паштет из сала и авокадо с чесноком который мы спрячем в орешках из бородинского хлеба положив в середину маслину закуска получается необычной оригинальной и ценится особенно мужчинами'

In [20]:
recipes['description'].loc[851934]

'замечательной закуской к напиткам на фуршетном столе станет паштет из сала и авокадо с чесноком куда мы добавим орешков из бородинского хлеба положив в середину маслины закуска получается крайне необычной оригинальной и ценится особенно мужчинами'

In [21]:
is_plagiarism(recipes['description'].loc[135488], recipes['description'].loc[851934])

True

### Стемминг, лемматизация

4\. На основе набора слов из задания 2 создайте `pd.DataFrame` со столбцами `word`, `stemmed_word` и `normalized_word`. В столбец `stemmed_word` поместите версию слова после проведения процедуры стемминга; в столбец `normalized_word` поместите версию слова после проведения процедуры лемматизации. Столбец `word` укажите в качестве индекса. 

Для стемминга можно воспользоваться `SnowballStemmer` из `nltk`, для лемматизации слов - пакетом `pymorphy2`. Сравните результаты стемминга и лемматизации. Поясните на примере одной из строк получившегося фрейма (в виде текстового комментария), в чем разница между двумя этими подходами. 

In [22]:
stemmer = SnowballStemmer("russian")
morph = pymorphy2.MorphAnalyzer()

words_df = pd.DataFrame({'word':words})
words_df['stemmed_word'] = words_df['word'].apply(lambda w: stemmer.stem(w))
words_df['normalized_word'] = words_df['word'].apply(lambda w: morph.parse(w)[0].normalized.word)

words_df.reset_index(drop=True, inplace=True)
words_df.set_index('word', inplace=True)

words_df.head(4)

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
пройтись,пройт,пройтись
ожидала,ожида,ожидать
ляпов,ляп,ляп
ужину,ужин,ужин


### Сравните результаты стемминга и лемматизации.

Возьмём для примера слово `поедаемое` (1 строка, см. выше). 
* Когда мы используем стемминг, то мы "отбрасываем" последнии нескольких символов.
  Т.е. должна остаться только главная форма слова. В данном случае это `поеда`.
* Когда мы используем лемматизацию, то слово приводится к начальной форме.
  В данном случае у нас деепричастие `поедаемое`. Начальной формой деепричастия, как и у глагола, 
  является инфинитив - `поедать`. Также стемминг работает быстрее, чем лемматизация. 

5\. Добавьте в таблицу `recipes` столбец `description_no_stopwords`, в котором содержится текст описания рецепта после удаления из него стоп-слов. Посчитайте и выведите на экран долю стоп-слов среди общего количества слов. Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [23]:
#nltk.download('stopwords')

### Добавьте в таблицу recipes столбец description_no_stopwords, в котором содержится текст описания рецепта после удаления из него стоп-слов.

In [24]:
from nltk.corpus import stopwords
cachedStopWords = stopwords.words("russian")

recipes['description_no_stopwords'] = recipes['description'].apply(lambda w: \
    ' '.join([word for word in word_tokenize(w) if word not in cachedStopWords]))
recipes['description_no_stopwords']

ID
164365    коктейль готовлю замороженной клубники клубник...
1306                                          быстро вкусно
10625              сытный овощной салатик пальчики оближете
167337    картофельное пюре куриные котлеты вкусная клас...
91919     вишневая наливка имеет яркий вишневый вкус кот...
                                ...                        
54574     тех любит чечевицу сюда очень вкусная чечевичн...
113494    баклажановые фантазии продолжаются предлагаю в...
83228     мое любимое блюдо лазанья кушать фарш поднадое...
172238    прошлым летом варила варенье одуванчиков рецеп...
52794     корочки хлеба сделал заказ буратино таверне до...
Name: description_no_stopwords, Length: 3467, dtype: object

### Посчитайте и выведите на экран долю стоп-слов среди общего количества слов.

In [90]:
words_2 = word_tokenize(string_description)
stop_words = [word for word in words_2 if word in cachedStopWords]
print(f'Доля стоп-слов среди общего количества слов: {len(stop_words) / len(words_2)}')

Доля стоп-слов среди общего количества слов: 0.322622307677368


### Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

### До:

In [91]:
import collections
counter = collections.Counter(words_2)
counter.most_common(10)

[('и', 5054),
 ('в', 2584),
 ('с', 1934),
 ('на', 1655),
 ('очень', 1607),
 ('не', 1517),
 ('из', 1006),
 ('я', 979),
 ('рецепт', 869),
 ('а', 863)]

### После:

In [92]:
without_stop_words = [word for word in words_2 if word not in cachedStopWords]
counter = collections.Counter(without_stop_words)
counter.most_common(10)

[('очень', 1607),
 ('рецепт', 869),
 ('это', 734),
 ('блюдо', 524),
 ('вкусный', 461),
 ('просто', 436),
 ('вкусно', 375),
 ('приготовить', 344),
 ('вкус', 324),
 ('салат', 313)]

### Векторное представление текста

6\. Выберите случайным образом 5 рецептов из набора данных, в названии которых есть слово "оладьи" (без учета регистра). Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`. На основе полученных векторов создайте `pd.DataFrame`, в котором названия колонок соответствуют словам из словаря объекта-векторизатора. 

Примечание: обратите внимание на порядок слов при создании колонок.

# В качестве описания рецепта, буду использовать столбец description_no_stopwords, т.к. лучше будет использовать именно этот столбец для последующих заданий.
* `Если вы не удалите стоп-слова, вы получите пространство с более высокой размерностью, и угол между векторами будет больше, что подразумевает меньшее сходство, даже если векторы передают практически одинаковую информацию.`

### Выберите случайным образом 5 рецептов из набора данных, в названии которых есть слово "оладьи" (без учета регистра).

In [93]:
df_pancakes = recipes.iloc[np.where(recipes['name'].str.extract(r"(оладьи)", re.I).notna())[0]].sample(n=5)
df_pancakes

Unnamed: 0_level_0,url,name,ingredients,description,description_no_stopwords
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
138148,https://www.povarenok.ru/recipes/show/138148/,Оладьи с изюмом,"{'Кефир': '0.5 л', 'Яйцо куриное': '1 шт', 'Со...",вкусные домашние оладушки с изюмом\r\nугощайтесь,вкусные домашние оладушки изюмом угощайтесь
143418,https://www.povarenok.ru/recipes/show/143418/,"Оладьи ""Лето""","{'Картофель': '7 шт', 'Перец болгарский': '1 ш...",драники или деруны уже давно стали интернацион...,драники деруны давно стали интернациональным б...
57827,https://www.povarenok.ru/recipes/show/57827/,Нежные куриные оладьи,"{'Филе куриное': '500 г', 'Сыр плавленый': '2 ...",нежные сочные оладьи и очень очень очень вкусные,нежные сочные оладьи очень очень очень вкусные
122866,https://www.povarenok.ru/recipes/show/122866/,Овсяные оладьи с луково-гороховой начинкой,"{'Мука овсяная': '1 стак.', 'Молоко': '1 стак....",очень вкусные нежный оладьи несмотря на то что...,очень вкусные нежный оладьи несмотря состоят н...
116312,https://www.povarenok.ru/recipes/show/116312/,Оладьи кукурузно-сырные,"{'Кукуруза': '1 бан.', 'Мука пшеничная': '2 ст...",опять в продолжение темы друзья оладьи чудесны...,продолжение темы друзья оладьи чудесные вспомн...


### Представьте описание каждого рецепта в виде числового вектора при помощи TfidfVectorizer. На основе полученных векторов создайте pd.DataFrame, в котором названия колонок соответствуют словам из словаря объекта-векторизатора.

In [94]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_distances
from scipy.spatial.distance import cdist 

vectorizer = TfidfVectorizer().fit(df_pancakes['description_no_stopwords'])
vectors = vectorizer.transform(df_pancakes['description_no_stopwords']).toarray()

columns = vectorizer.get_feature_names()
vectors;

In [95]:
df_vectorize = pd.DataFrame(data=vectors,columns=columns)
df_vectorize

Unnamed: 0,200мл,белорусскую,блюдо,блюдом,будут,вариант,везде,вкус,вкуса,вкусные,...,упустила,урожай,уходя,уютно,фарша,хороший,чудесные,шалот,шанс,широко
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.271139,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.15749,0.0,0.15749,0.0,0.0,0.0,0.0,0.15749,0.0,...,0.15749,0.0,0.15749,0.0,0.0,0.0,0.0,0.0,0.15749,0.15749
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.218119,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.182321,0.0,0.0,0.0,0.0,0.0,0.182321,0.182321,0.0,0.102717,...,0.0,0.182321,0.0,0.0,0.182321,0.182321,0.0,0.182321,0.0,0.0
4,0.0,0.0,0.173858,0.0,0.173858,0.173858,0.0,0.0,0.0,0.097949,...,0.0,0.0,0.0,0.173858,0.0,0.0,0.173858,0.0,0.0,0.0


7\. Вычислите близость между каждой парой рецептов, выбранных в задании 6, используя косинусное расстояние (можно воспользоваться функциями из любого пакета: `scipy`, `scikit-learn` или реализовать функцию самому). Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

Примечание: обратите внимание, что $d_{cosine}(x, x) = 0$

In [96]:
data_cosine = cosine_distances(vectors,vectors)
df_cosine = pd.DataFrame(data=data_cosine, columns=df_pancakes['name'].values, index=df_pancakes['name'].values) 
df_cosine

Unnamed: 0,Оладьи с изюмом,"Оладьи ""Лето""",Нежные куриные оладьи,Овсяные оладьи с луково-гороховой начинкой,Оладьи кукурузно-сырные
Оладьи с изюмом,0.0,1.0,0.940859,0.97215,0.973442
"Оладьи ""Лето""",1.0,0.0,0.980647,0.990886,0.991309
Нежные куриные оладьи,0.940859,0.980647,0.0,0.860213,0.866701
Овсяные оладьи с луково-гороховой начинкой,0.97215,0.990886,0.860213,0.0,0.965661
Оладьи кукурузно-сырные,0.973442,0.991309,0.866701,0.965661,0.0


8\. Напишите функцию, которая принимает на вход `pd.DataFrame`, полученный в задании 7, и возвращает в виде кортежа названия двух различных рецептов, которые являются наиболее похожими. Прокомментируйте результат (в виде текстового комментария). Для объяснения результата сравните слова в описаниях двух этих отзывов.

In [97]:
def find_closest(sim_df: pd.DataFrame) -> tuple:
    col = sim_df.iloc[:, np.where(sim_df == sim_df[sim_df > 0].min().min())[0][0]].name
    row = sim_df.iloc[np.where(sim_df == sim_df[sim_df > 0].min().min())[0][1],:].name
    return (col, row)

find_closest(df_cosine)

('Нежные куриные оладьи', 'Овсяные оладьи с луково-гороховой начинкой')

In [104]:
df_pancakes['description_no_stopwords'][(df_pancakes['name'] == find_closest(df_cosine)[0]) | (df_pancakes['name'] == find_closest(df_cosine)[1])].values

array(['нежные сочные оладьи очень очень очень вкусные',
       'очень вкусные нежный оладьи несмотря состоят нескольких ингредиентов начинка лука зеленым горошком небольшим колвом фарша дополняют вкус подавать сметаной стакан 200мл лук шалот заменить обычный просто году хороший урожай кладу везде угошайтесь'],
      dtype=object)

### Похожие слова в предложениях:
`нежные` и `нежный`, 
`оладьи` и `оладьи`,  
`очень` и `очень`,
`вкусные` и `вкусные`.
Таким образом 4 пары слов коррелирует в данных двух описаниях рецептов, поэтому косинусное расстояние минимальное среди данных рецептов.