# Введение в обработку текста на естественном языке

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Введение в обработку текста на естественном языке"
* https://www.nltk.org/api/nltk.metrics.distance.html
* https://pymorphy2.readthedocs.io/en/stable/user/guide.html
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [2]:
import nltk
from nltk.stem import SnowballStemmer
from nltk import word_tokenize
from nltk import edit_distance
from nltk import sent_tokenize
from nltk.corpus import stopwords
stop_words = stopwords.words('russian')
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.probability import FreqDist

from scipy.spatial.distance import cosine

import pymorphy2

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

import numpy as np
import pandas as pd
import time
import re

In [3]:
pip install sklearn

Note: you may need to restart the kernel to use updated packages.


In [4]:
!pip install pymorphy2



In [5]:
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Вячеслав\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Вячеслав\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Вячеслав\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Вячеслав\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. При помощи расстояния Левенштейна иправьте опечатку в слове "велечайшим".

In [6]:
with open('litw-win.txt', 'r') as read_file:
    words = []
    for row in read_file:
        words.append(read_file.readline().split()[-1])
print(words[:20])

['в', 'с', 'к', 'о', 'п', 'б', 'д', 'ч', 'г', 'р', 'л', 'ш', 'ц', 'й', 'ы', 'ь', 'на', 'то', 'же', 'по']


In [7]:
closest = ''
dist = 11
for cur in words:
    if edit_distance('велечайшим', cur) < dist:
        closest = cur
        dist = edit_distance('велечайшим', cur)
        
print(dist, closest)

1 величайшим


2. Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.

In [8]:
text = '''Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.'''

patt = nltk.tokenize.RegexpTokenizer(r"[а-яА-Я]+")
res = patt.tokenize(text)

res

['Разбейте',
 'текст',
 'из',
 'формулировки',
 'второго',
 'задания',
 'на',
 'слова',
 'Проведите',
 'стемминг',
 'и',
 'лемматизацию',
 'слов']

In [9]:
stemer = SnowballStemmer('russian')
stem_res = [stemer.stem(word) for word in res]

stem_res

['разб',
 'текст',
 'из',
 'формулировк',
 'втор',
 'задан',
 'на',
 'слов',
 'провед',
 'стемминг',
 'и',
 'лемматизац',
 'слов']

In [10]:
morph = pymorphy2.MorphAnalyzer()

for word in res:
    p = morph.parse(word)[0]
    print(p.normal_form)

разбить
текст
из
формулировка
второй
задание
на
слово
провести
стемминг
и
лемматизация
слово


3. Преобразуйте предложения из формулировки задания 2 в векторы при помощи `CountVectorizer`. Выведите на экран словарь обученного токенизатора.

In [11]:
text = '''Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.'''
#text_1 = nltk.set_transform(text)

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(res)

vectorizer.get_feature_names_out()



array(['второго', 'задания', 'из', 'лемматизацию', 'на', 'проведите',
       'разбейте', 'слов', 'слова', 'стемминг', 'текст', 'формулировки'],
      dtype=object)

In [12]:
print(X.toarray())

[[0 0 0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 0 0 0]]


## Лабораторная работа 7

1\. Загрузите данные из файла `ru_recipes_sample.csv` в виде `pd.DataFrame` `recipes` Используя регулярные выражения, удалите из описаний (столбец `description`) все символы, кроме русских букв, цифр и пробелов. Приведите все слова в описании к нижнему регистру. Сохраните полученный результат в столбец `description`.

In [13]:
recipes = pd.read_csv('ru_recipes_sample.csv')
recipes

Unnamed: 0,url,name,ingredients,description
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль,"{'Молоко': '250 мл', 'Клубника': '200 г', 'Сах...",Этот коктейль готовлю из замороженной клубники...
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики,"{'Сыр твердый': None, 'Чеснок': None, 'Яйцо ку...",Быстро и вкусно.
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик""","{'Баклажан': '3 шт', 'Лук репчатый': '2 шт', '...","Сытный, овощной салатик, пальчики оближете."
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке,"{'Фарш куриный': '800 г', 'Пюре картофельное':...",Картофельное пюре и куриные котлеты - вкусная ...
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки,"{'Вишня': '1 кг', 'Водка': '1 л', 'Сахар': '30...","Вишневая наливка имеет яркий вишневый вкус, ко..."
...,...,...,...,...
3462,https://www.povarenok.ru/recipes/show/54574/,Мшош,"{'Чечевица': '1 стак.', 'Лук репчатый': '2 шт'...","Для тех, кто любит чечевицу... Вам сюда! Очень..."
3463,https://www.povarenok.ru/recipes/show/113494/,Мясные треугольники с баклажаном,"{'Фарш мясной': '400 г', 'Баклажан': '1 шт', '...",Баклажановые фантазии продолжаются! Предлагаю ...
3464,https://www.povarenok.ru/recipes/show/83228/,"""Болоньез"" по-новому","{'Фарш мясной': '400 г', 'Томаты в собственном...",Мое любимое блюдо лазанья. Но кушать только фа...
3465,https://www.povarenok.ru/recipes/show/172238/,Варенье из одуванчиков с апельсинами,"{'Цветки': '400 г', 'Сахар': '1300 г', 'Апельс...",Прошлым летом варила варенье из одуванчиков по...


In [14]:
recipes[['url', 'name']]

Unnamed: 0,url,name
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик"""
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки
...,...,...
3462,https://www.povarenok.ru/recipes/show/54574/,Мшош
3463,https://www.povarenok.ru/recipes/show/113494/,Мясные треугольники с баклажаном
3464,https://www.povarenok.ru/recipes/show/83228/,"""Болоньез"" по-новому"
3465,https://www.povarenok.ru/recipes/show/172238/,Варенье из одуванчиков с апельсинами


In [15]:
recipes['description'] = recipes['description'].apply(lambda x : re.sub('[^а-яА-ЯёЁ0-9\s]+', '', x)).str.lower()

recipes.head()

Unnamed: 0,url,name,ingredients,description
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль,"{'Молоко': '250 мл', 'Клубника': '200 г', 'Сах...",этот коктейль готовлю из замороженной клубники...
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики,"{'Сыр твердый': None, 'Чеснок': None, 'Яйцо ку...",быстро и вкусно
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик""","{'Баклажан': '3 шт', 'Лук репчатый': '2 шт', '...",сытный овощной салатик пальчики оближете
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке,"{'Фарш куриный': '800 г', 'Пюре картофельное':...",картофельное пюре и куриные котлеты вкусная к...
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки,"{'Вишня': '1 кг', 'Водка': '1 л', 'Сахар': '30...",вишневая наливка имеет яркий вишневый вкус кот...


### Расстояние редактирования

2\. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние Левенштейна. Выведите на экран результат в следующем виде:

```
d(word1, word2) = x
```

In [16]:
words_ser = recipes.description.apply(word_tokenize)
words_ser

0       [этот, коктейль, готовлю, из, замороженной, кл...
1                                     [быстро, и, вкусно]
2          [сытный, овощной, салатик, пальчики, оближете]
3       [картофельное, пюре, и, куриные, котлеты, вкус...
4       [вишневая, наливка, имеет, яркий, вишневый, вк...
                              ...                        
3462    [для, тех, кто, любит, чечевицу, вам, сюда, оч...
3463    [баклажановые, фантазии, продолжаются, предлаг...
3464    [мое, любимое, блюдо, лазанья, но, кушать, тол...
3465    [прошлым, летом, варила, варенье, из, одуванчи...
3466    [и, три, корочки, хлеба, сделал, заказ, бурати...
Name: description, Length: 3467, dtype: object

In [17]:
words = words_ser.explode().values

amount_of_words = len(words)
all_words = words

words = list(set(words))
words[:5], len(words)

(['приходится', 'толокна', 'боботи', 'покрытая', 'детстве'], 16451)

In [18]:
words_samples = np.random.choice(words, 10).reshape(5, 2)
words_samples

array([['решайтесь', 'пострадает'],
       ['суповпюре', 'чавкали'],
       ['восхищение', 'фальшивыми'],
       ['раскрашен', 'шампанское'],
       ['17414124171516', 'запросто']], dtype='<U27')

In [19]:
def Levenstein_print(cur):
    dist = edit_distance(cur[0], cur[1])
    print(f'd({cur[0]}, {cur[1]}) = {dist}')
    

for cur_pair in words_samples:
    Levenstein_print(cur_pair)

d(решайтесь, пострадает) = 9
d(суповпюре, чавкали) = 8
d(восхищение, фальшивыми) = 9
d(раскрашен, шампанское) = 9
d(17414124171516, запросто) = 14


3\. Напишите функцию, которая принимает на вход 2 текстовые строки `s1` и `s2` и при помощи расстояния Левенштейна определяет, является ли строка `s2` плагиатом `s1`. Функция должна реализовывать следующую логику: для каждого слова `w1` из `s1` проверяет, есть в `s2` хотя бы одно слово `w2`, такое, что расстояние Левенштейна между `w1` и `w2` меньше 2, и считает количество таких слов в `s1` $P$. 

$$ P = \#\{w_1 \in s_1\ | \exists w_2 \in s_2 : d(w_1, w_2) < tol\}$$

$$ L = max(|s1|, |s2|) $$

Здесь $|\cdot|$ - количество слов в строке, $\#A$ - число элементов в множестве $A$, $w \in s$ означает, что слово $w$ содержится в тексте $s$.

Если отношение $P / L$ больше 0.8, то функция должна вернуть True; иначе False.

Продемонстрируйте работу вашей функции на примере описаний двух рецептов с ID 135488 и 851934 (ID рецепта - это число, стоящее в конце url рецепта). Выведите на экран описания этих рецептов и результат работы функции.

In [20]:
def is_plagiarism(s1: str, s2: str) -> bool:
    s1_words = word_tokenize(s1)
    s2_words = word_tokenize(s2)
    
    p_counter = 0
    for cur_word in s1_words:
        for cur_comp in s2_words:
            dist = edit_distance(cur_word, cur_comp)
            if dist < 2:
                p_counter += 1
                break
                
    l = max(len(s1_words), len(s2_words))
    if p_counter / l > 0.8:
        return True
    else:
        return False
    
link = 'https://www.povarenok.ru/recipes/show/'
rec1 = recipes[recipes['url'] == link + str(135488) + '/']['description'].values[0]
rec2 = recipes[recipes['url'] == link + str(851934) + '/']['description'].values[0]

print(f'Описание (135488): {rec1} \n\n Описание (851934):{rec2} \n\n Результат работы функции: {is_plagiarism(s1 = rec1, s2 = rec2)}')

Описание (135488): прекрасной закуской к крепким напиткам на фуршетном столе станет паштет из сала и авокадо с чесноком который мы спрячем в орешках из бородинского хлеба положив в середину маслину закуска получается необычной оригинальной и ценится особенно мужчинами 

 Описание (851934):замечательной закуской к напиткам на фуршетном столе станет паштет из сала и авокадо с чесноком куда мы добавим орешков из бородинского хлеба положив в середину маслины закуска получается крайне необычной оригинальной и ценится особенно мужчинами 

 Результат работы функции: True


### Стемминг, лемматизация

4\. На основе набора слов из задания 2 создайте `pd.DataFrame` со столбцами `word`, `stemmed_word` и `normalized_word`. В столбец `stemmed_word` поместите версию слова после проведения процедуры стемминга; в столбец `normalized_word` поместите версию слова после проведения процедуры лемматизации. Столбец `word` укажите в качестве индекса. 

Для стемминга можно воспользоваться `SnowballStemmer` из `nltk`, для лемматизации слов - пакетом `pymorphy2`. Сравните результаты стемминга и лемматизации. Поясните на примере одной из строк получившегося фрейма (в виде текстового комментария), в чем разница между двумя этими подходами. 

In [21]:
words_df = pd.DataFrame()
words_df['word'] = words

stemmer = SnowballStemmer('russian')
lemmatizator = pymorphy2.MorphAnalyzer()

words_df['stemmed_word'] = words_df['word'].apply(stemmer.stem)
words_df['normalized_word'] = words_df['word'].apply(lambda x: lemmatizator.parse(x)[0].normal_form)

words_df = words_df.set_index('word')
words_df.head()

#Итог

#Стэмминг приводит слово к его корневой форме (чаще всего не является употребляемым словом)

#Лемматизация - приводит слово в формат инфинитива, Именительного падежа и т.д. 
#иными словами к его начальной форме той же части речи

#Пример - разной. Корневая часть этого слова (всех его форм) получена из стемминга = разн, в то время как лемматизация
#даёт нам полную форму прилагательного = разный


KeyboardInterrupt



5\. Добавьте в таблицу `recipes` столбец `description_no_stopwords`, в котором содержится текст описания рецепта после удаления из него стоп-слов. Посчитайте и выведите на экран долю стоп-слов среди общего количества слов. Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [None]:
def stop_words_clean(sent) -> str:
    global stop_words
    s_token = word_tokenize(sent)
    res = ''
    for cur in s_token:
        if cur not in stop_words:
            res += cur + ' '
        else:
            if cur in stop_words_share.keys():
                stop_words_share[cur] += 1
            else:
                stop_words_share[cur] = 0
                
    return res[:-1]

stop_words_share = {}
stop_words = stopwords.words('russian')

recipes['description_no_stopwords'] = recipes['description'].apply(stop_words_clean)

recipes.head()

In [None]:
top10_before = FreqDist(all_words).most_common(10)
print('До удаления стоп слов:', *top10_before, sep = '\n')

all_nonstop_words = []
for cur in recipes['description_no_stopwords'].apply(word_tokenize).values:
    all_nonstop_words.extend(cur)
    
top10_after = FreqDist(all_nonstop_words).most_common(10)
print('\nПосле удаления стоп слов:', *top10_after, sep = '\n')
    
    
print('\nДоля стоп-слов в датасете: ', sum(stop_words_share.values()) / amount_of_words)

### Векторное представление текста

6\. Выберите случайным образом 5 рецептов из набора данных, в названии которых есть слово "оладьи" (без учета регистра). Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`. На основе полученных векторов создайте `pd.DataFrame`, в котором названия колонок соответствуют словам из словаря объекта-векторизатора. 

Примечание: обратите внимание на порядок слов при создании колонок.

In [None]:
def masking(s):
    return (s.apply(lambda x: 'оладьи' in x.lower()))

pank = recipes[masking(recipes['description'])].sample(5)
pank

In [None]:
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(pank.loc[cur]['description'] for cur in pank.index)

names = vectorizer.get_feature_names_out()

new_data = pd.DataFrame(vectors.toarray(), columns = names)

new_data  #Порядок слов алфавитный

7\. Вычислите близость между каждой парой рецептов, выбранных в задании 6, используя косинусное расстояние (можно воспользоваться функциями из любого пакета: `scipy`, `scikit-learn` или реализовать функцию самому). Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

Примечание: обратите внимание, что $d_{cosine}(x, x) = 0$

In [None]:
names = pank['name'].values

data = np.zeros((5, 5))

for u in range(5):
    for v in range(5):
        data[u, v] = cosine(new_data.iloc[u].values, new_data.iloc[v].values)

form_pank = pd.DataFrame(data, columns = names, index = names)

form_pank

8\. Напишите функцию, которая принимает на вход `pd.DataFrame`, полученный в задании 7, и возвращает в виде кортежа названия двух различных рецептов, которые являются наиболее похожими. Прокомментируйте результат (в виде текстового комментария). Для объяснения результата сравните слова в описаниях двух этих отзывов.

In [None]:
def find_closest(sim_df: pd.DataFrame) -> tuple:
    ind1, ind2 = np.where(sim_df == sim_df[sim_df > 0].min().min())[0]
    return([sim_df.index[ind1], sim_df.index[ind2]])
                   
name1, name2 = find_closest(form_pank)

print(name1, ', ', name2)

desc1 = recipes[recipes['name'] == name1]['description'].values[0]
desc2 = recipes[recipes['name'] == name2]['description'].values[0]

print('\nОписание 1:', desc1)
print('\nОписание 2:', desc2)

In [None]:
#Косинусное расстояние показывает, чем ближе число к 0, тем более похожи фразы между собой
#Соответственно при значении ~0,8 (полученный пример) фразы мало похожи между собой и содержат несколько общих слов

#В данном примере общие слова это: очень, вкусные, оладьи, и

### Это были эксперименты

In [None]:
print(words_df[:5]['word'])
lemmatizator = pymorphy2.MorphAnalyzer()

start_time = time.time()
words_exp = words_df[:100]['word'].apply(lambda x: pymorphy2.MorphAnalyzer().parse(x)[0].normal_form)
print('words_exp', time.time() - start_time)

start_time = time.time()
print(len(words), type(words))
#data = words_df[:100]['word'].values
words_exp = [lemmatizator.parse(x)[0].normal_form for x in words[:100]]

print('words_exp', time.time() - start_time)

start_time = time.time()
words_exp = words_df[:100]['word'].apply(lambda x: WordNetLemmatizer().lemmatize(x))

print(words_exp, time.time() - start_time)