# Введение в обработку текста на естественном языке

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* Макрушин С.В. Лекция "Введение в обработку текста на естественном языке"
* https://www.nltk.org/api/nltk.metrics.distance.html
* https://pymorphy2.readthedocs.io/en/stable/user/guide.html
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
!pip install pymorphy2



In [2]:
import nltk

nltk.download("punkt")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Вячеслав\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. При помощи расстояния Левенштейна иправьте опечатку в слове "велечайшим".

In [3]:
from nltk import edit_distance

![image.png](attachment:image.png)

In [4]:
# считаем файл со словами
# в начале файла идут пробелы, потом какие-то числа (нам они не нужны), потом сами слова

with open("litw-win.txt", "r", encoding="utf-8") as fp:
    # делим строки по пробелам и берем последний элемент
    words = [line.split()[-1] for line in fp]
    
# это как раз тот случай, когда файл не в utf-8, поэтому ничего не работает
# попробуем другую кодировку - windows-1251

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 8: invalid continuation byte

In [None]:
with open("litw-win.txt", "r", encoding="windows-1251") as fp:
    # делим строки по пробелам и берем последний элемент
    words = [line.split()[-1] for line in fp]
# теперь сработало

In [None]:
words

In [None]:
words[10000:10005]

In [None]:
# для вычисления расстояния Левенштейна есть много разных функций
# мы можем воспользоваться nltk, с которым знакомились в прошлый раз

# расстояние Левенштейна измеряет близость между строками; чем меньше полученное значение,
# тем больше похожи две строки друг на друга
# "похожесть" измеряется в количестве операций вставки, удаления и замены символов, которые
# надо сделать, чтобы одну строку свести к другой

In [None]:
edit_distance("Вы справитесь с домашкой", "Вы не справитесь с домашкой")
# вернулось число 3, потому что надо после слова "Вы" добавить 3 символа: 
# пробел, "н" и "е", и тогда две строки станут одинаковыми

In [None]:
%%time

# один из вариантов использования расстояния - исправление ошибок
# берем слово с ошибкой
word = "велечайшим"
# у нас есть список words, в котором, мы точно знаем, содержатся слова без ошибок
# в списке слов words ищем слово, которое как можно ближе к word

# можно воспользоваться встроенным min
min(
    words,  # ищи минимум по строкам из words
    key=lambda w: edit_distance(
        word, w
    ),  # минимум в смысле расстояния от конкретного слова w до слова word
)

In [None]:
# вычисление расстояние Левенштейна - в общем случае не дешевая операция
# поэтому предыдущая ячейка может занять какое-то время
# на практике лучше добавить каких-нибудь эвристик, чтобы сократить объем вычислений
# если это возможно

2. Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов.

In [None]:
from nltk.stem import SnowballStemmer
from nltk import word_tokenize
import pymorphy2

In [None]:
# для наглядности чуть поменяю формулировку задания

In [None]:
text = """Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов в тексте."""

In [None]:
# разбиваем текст на слова при помощи уже известной нам word_tokenize

words = word_tokenize(text)
words[:5]

In [None]:
# при обработке текстов на многих языках возникает одна и та же проблема:
# если ничего не предпринять, то различные формы слов будут рассматриваться в нашем
# коде, как совершенно разные слова. Например, в words сейчас есть 2 слова: "текст" и "тексте"
# машине неоткуда узнать, что это одно и то же слово, но в разных падежах
# если ничего с этим не сделать, то часто можно столкнуться с тем, что:
# а) алгоритм будет работать хуже (любой, в т.ч. модель ML)
# б) алгоритм будет работать медленнее (т.к. форм слова в русском может быть очень много, размер вашего
# словаря слов может быть просто гигантским)

In [None]:
# чтобы это победить, есть как минимум 2 варианта: стемминг и лемматизация

# начинаем со стемминга. Стемминг - это процедура "отбрасывания" последних нескольких символов
# слова, которые, по идее, и отвечают на форму. Проблема в том, что заранее вы не знаете,
# сколько символов отбросить
# русскоязычный стеммер есть в том же nltk

# создаем специальный объект-стеммер и указываем,
# что будем работать с русским языком (это важно, т.к. другие языки надо обрабатывать по-другому)
stemmer = SnowballStemmer("russian")
# для каждого слова из words вызываем метод stem у стеммера
{w: stemmer.stem(w) for w in words}

# из плюсов - работает достаточно быстро и позволяет решить нашу проблему
# из минусов - то, что получилось - это уже не слова русского языка

In [None]:
# лемматизация - это процедура приведения слова к начальной форме. что такое "начальная форма" -
# зависит от части речи слова (для прилагательных, например, ед.ч именительный пад. мужской род)
# в nltk есть инструменты для лемматизации англоязычных слов
# а для русского языка мы попользуем пакет pymorphy2

In [None]:
# создаем специальный объект MorphAnalyzer
# важно: его надо создать один раз, и использовать ниже по коду
# не создавайте его в циклах и т.д. - это сильно замедлит работу
morph = pymorphy2.MorphAnalyzer()

In [None]:
# возьмем первое слово и посмотрим на его примере, как работать с этой штукой
w = words[0]
# передаем слово в morph.parse и смотрим на результат
res = morph.parse(w)
print(res)
# результат - это список объектов Parse. Каждый объект - это специальная структура, которая
# содержит информацию о том, что это за часть речи, какая у него (слова) нормальная форма
# и некоторую другую информацию
# почему список? потому что часто pymorphy не может однозначно определить, что это за часть речи
# поэтому предлагает нам выбор; этот список упорядочен по убыванию "правдоподобности" результата
# т.е. часто имеет смысл смотреть на 0й элемент
opt1 = res[0]

In [None]:
# у объектов Parse есть поле normalized, которое вернем нам тоже объект Parse,
# но для нормализованной формы слова
print(opt1.normalized)

# после этого нам останется только вытащить саму строку из объекта
# для этого обратимся к полю word
print(opt1.normalized.word)

In [None]:
# теперь все вместе
morph = pymorphy2.MorphAnalyzer()
{w: morph.parse(w)[0].normalized.word for w in words}
# опять же, решили нужную нам задачу, но теперь результат - это настоящие слова, что может быть хорошо
# для каких-то задач. из минусов - это работает медленнее стемминга

3. Преобразуйте предложения из формулировки задания 2 в векторы при помощи `CountVectorizer`. Выведите на экран словарь обученного токенизатора.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk import sent_tokenize

In [None]:
text = """Разбейте текст из формулировки второго задания на слова. Проведите стемминг и лемматизацию слов в тексте."""

In [None]:
# вы знаете, что модели ML любят числа, не любят буквы
# поэтому почти всегда первый наш шаг - преобразовать строку в числовой вектор
# в этом месте появляется куча разнообразных методов, решающих эту задачу
# здесь мы рассмотрим, наверное, самый простой способ решения этой задачи
# на практике так уже не делают, т.к. есть способы кодирования, которые дают более высокие результаты
# но это требует уметь работать с нейронками, поэтому, надеюсь, вам это расскажут на курсе по ML

# мы вместо сложных нейронок сейчас сделаем следующее: возьмем текст, распилим его на слова, запомним, какие слова в нем есть
# каждое слово занумеруем числами от 0 и создадим вектор для каждого предложения по следующему правилу:
# сколько раз в предложении встретилось слово с номером i, такое число будет стоять в i-й координате вектора
# для данного предложения

In [None]:
# можно для этих целей воспользоваться готовым решением из sklearn
# считаю, что с sklearn вы уже знакомы из курса ML

# нам нужно самим разбить текст на предложения
sents = sent_tokenize(text)

# потом обучаем объект-векторизатор (в задании ошибка: не токенизатор, а векторизатор)
# в этом месте происходит разбиение на слова, их нумерация и т.д.
cv = CountVectorizer().fit(sents)
# и потом преобразуем строки в векторы при помощи метода transform обученного векторизатора
# transform вернет sparse массив, сделаем его "обычным", вызвав .toarray()
sents_cv = cv.transform(sents).toarray()
sents_cv

In [None]:
sents

In [None]:
# теперь как понять, что это за единички и нолики?
# посмотрим на поле vocabulary_ у векторизатора
cv.vocabulary_

In [None]:
# видим, что слову "разбейте" векторизатор присвоил номер 6 (как и почему он это сделал, сейчас не важно)
# смотрим на 6 столбец полученных векторов
sents_cv[:, 6]
# видим, что в 0 строке стоит 1 (это значит, слово "разбейте" встретилось в соответствующем тексте 1 раз)
#  а в 1 строке стоит 0 (этого слова там не было)

In [None]:
# из плюсов: простота реализации, скорость
# из минусов: если слов в словаре много, то векторы становятся очень большие и разреженные 
# и модели начинают плохо работать

In [None]:
# обратите внимание, что есть слово "текст" с номером 10, а есть слово "тексте" с номером 11
# получается, что у нас появится две координаты в векторе, хотя по факту слово-то одно
# это проблема. ее можно решить при помощи стемминга или лемматизации

In [None]:
# в домашке вместо такого алгоритма вы будете использовать TF-IDF; 
# с точки зрения кода это требует от вас взять другой класс из sklearn; 
# на лекции вам подробно расскажут, чем эти подходы различаются

## Лабораторная работа 7

In [6]:
pip install iteration_utilities

Collecting iteration_utilities
  Downloading iteration_utilities-0.11.0-cp38-cp38-win_amd64.whl (89 kB)
     ---------------------------------------- 89.1/89.1 kB 1.0 MB/s eta 0:00:00
Installing collected packages: iteration_utilities
Successfully installed iteration_utilities-0.11.0
Note: you may need to restart the kernel to use updated packages.


In [7]:
import nltk
import re
import numpy as np
from nltk import edit_distance
from nltk.stem import SnowballStemmer
from nltk import word_tokenize
import pymorphy2
from sklearn.feature_extraction.text import CountVectorizer
from nltk import sent_tokenize
import pandas as pd
from iteration_utilities import flatten
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
import nltk
nltk.__version__

In [None]:
import pymorphy2
pymorphy2.__version__

In [8]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Вячеслав\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

1\. Загрузите данные из файла `ru_recipes_sample.csv` в виде `pd.DataFrame` `recipes` Используя регулярные выражения, удалите из описаний (столбец `description`) все символы, кроме русских букв, цифр и пробелов. Приведите все слова в описании к нижнему регистру. Сохраните полученный результат в столбец `description`.

In [9]:
import pandas as pd

recipes = pd.read_csv('ru_recipes_sample.csv', sep=',')
recipes

Unnamed: 0,url,name,ingredients,description
0,https://www.povarenok.ru/recipes/show/164365/,Густой молочно-клубничный коктейль,"{'Молоко': '250 мл', 'Клубника': '200 г', 'Сах...",Этот коктейль готовлю из замороженной клубники...
1,https://www.povarenok.ru/recipes/show/1306/,Рулетики,"{'Сыр твердый': None, 'Чеснок': None, 'Яйцо ку...",Быстро и вкусно.
2,https://www.povarenok.ru/recipes/show/10625/,"Салат ""Баклажанчик""","{'Баклажан': '3 шт', 'Лук репчатый': '2 шт', '...","Сытный, овощной салатик, пальчики оближете."
3,https://www.povarenok.ru/recipes/show/167337/,Куриные котлеты с картофельным пюре в духовке,"{'Фарш куриный': '800 г', 'Пюре картофельное':...",Картофельное пюре и куриные котлеты - вкусная ...
4,https://www.povarenok.ru/recipes/show/91919/,Рецепт вишневой наливки,"{'Вишня': '1 кг', 'Водка': '1 л', 'Сахар': '30...","Вишневая наливка имеет яркий вишневый вкус, ко..."
...,...,...,...,...
3462,https://www.povarenok.ru/recipes/show/54574/,Мшош,"{'Чечевица': '1 стак.', 'Лук репчатый': '2 шт'...","Для тех, кто любит чечевицу... Вам сюда! Очень..."
3463,https://www.povarenok.ru/recipes/show/113494/,Мясные треугольники с баклажаном,"{'Фарш мясной': '400 г', 'Баклажан': '1 шт', '...",Баклажановые фантазии продолжаются! Предлагаю ...
3464,https://www.povarenok.ru/recipes/show/83228/,"""Болоньез"" по-новому","{'Фарш мясной': '400 г', 'Томаты в собственном...",Мое любимое блюдо лазанья. Но кушать только фа...
3465,https://www.povarenok.ru/recipes/show/172238/,Варенье из одуванчиков с апельсинами,"{'Цветки': '400 г', 'Сахар': '1300 г', 'Апельс...",Прошлым летом варила варенье из одуванчиков по...


In [None]:
# chk_desc = list(recipes[["description"]].values)
# print(*chk_desc)

In [None]:
patt = re.compile(r"[^0-9а-яА-ЯёЁ ]+")
recipes["description"] = recipes["description"].str.replace(patt, "").str.lower()
recipes

In [None]:
# chk_desc = list(recipes[["description"]].values)
# print(*chk_desc)

In [None]:
# patt = re.compile(r"[^0-9а-яА-ЯёЁ ]+")
# res_chk = recipes["description"].str.findall(patt)
# print(*list(res_chk))

### Расстояние редактирования

2\. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние Левенштейна. Выведите на экран результат в следующем виде:

```
d(word1, word2) = x
```

In [None]:
sep_words = recipes["description"].apply(lambda x: word_tokenize(x))
sep_words

In [None]:
words = list(set(flatten(sep_words)))
print(len(unique_words))
words

In [None]:
random_unique_words = np.random.choice(words, 10, False).reshape(5, 2)
random_unique_words

In [None]:
res = list(map(lambda x: f"d({x[0]}, {x[1]}) = {edit_distance(x[0], x[1])}", random_unique_words))
print(*res, sep='\n')

3\. Напишите функцию, которая принимает на вход 2 текстовые строки `s1` и `s2` и при помощи расстояния Левенштейна определяет, является ли строка `s2` плагиатом `s1`. Функция должна реализовывать следующую логику: для каждого слова `w1` из `s1` проверяет, есть в `s2` хотя бы одно слово `w2`, такое, что расстояние Левенштейна между `w1` и `w2` меньше 2, и считает количество таких слов в `s1` $P$. 

$$ P = \#\{w_1 \in s_1\ | \exists w_2 \in s_2 : d(w_1, w_2) < tol\}$$

$$ L = max(|s1|, |s2|) $$

Здесь $|\cdot|$ - количество слов в строке, $\#A$ - число элементов в множестве $A$, $w \in s$ означает, что слово $w$ содержится в тексте $s$.

Если отношение $P / L$ больше 0.8, то функция должна вернуть True; иначе False.

Продемонстрируйте работу вашей функции на примере описаний двух рецептов с ID 135488 и 851934 (ID рецепта - это число, стоящее в конце url рецепта). Выведите на экран описания этих рецептов и результат работы функции.

In [None]:
def is_plagiarism(s1: str, s2: str) -> bool:
    tokenizer = nltk.tokenize.RegexpTokenizer(r"\w+")
    lst_words_s1 = tokenizer.tokenize(s1)
    lst_words_s2 = tokenizer.tokenize(s2)
    p = 0
    for w in range(len(lst_words_s1)):
        word_to_compare = lst_words_s1[w]
        for w_in_s2 in lst_words_s2:
            if edit_distance(word_to_compare, w_in_s2) < 2:
                p += 1
                break
                
    l = max(len(lst_words_s1), len(lst_words_s2))

    return True if p/l > 0.8 else False
            
ind1 = 135488
ind2 = 851934
url = recipes["url"].apply(lambda x: x.split('/')[-2])
ind_to_choose = list(flatten([url[url == str(ind1)].index.tolist(), 
                              url[url == str(ind2)].index.tolist()]))
    
is_plagiarism(recipes.at[ind_to_choose[0], 'description'], 
              recipes.at[ind_to_choose[1], 'description'])

### Стемминг, лемматизация

4\. На основе набора слов из задания 2 создайте `pd.DataFrame` со столбцами `word`, `stemmed_word` и `normalized_word`. В столбец `stemmed_word` поместите версию слова после проведения процедуры стемминга; в столбец `normalized_word` поместите версию слова после проведения процедуры лемматизации. Столбец `word` укажите в качестве индекса. 

Для стемминга можно воспользоваться `SnowballStemmer` из `nltk`, для лемматизации слов - пакетом `pymorphy2`. Сравните результаты стемминга и лемматизации. Поясните на примере одной из строк получившегося фрейма (в виде текстового комментария), в чем разница между двумя этими подходами. 

In [None]:
%%time

stemmer = SnowballStemmer("russian")
morph = pymorphy2.MorphAnalyzer()
d = {'word': words, 'stemmed_word': [stemmer.stem(w) for w in words], 
     'normalized_word': [morph.parse(w)[0].normalized.word for w in words]}
df = pd.DataFrame(data=d)
df

5\. Добавьте в таблицу `recipes` столбец `description_no_stopwords`, в котором содержится текст описания рецепта после удаления из него стоп-слов. Посчитайте и выведите на экран долю стоп-слов среди общего количества слов. Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [None]:
russian_stopwords = stopwords.words("russian")

recipes["description_no_stopwords"] = recipes["description"].apply(lambda x: " ".join([w for w in word_tokenize(x) if w not in russian_stopwords]))
recipes

In [None]:
all_words = list(flatten(sep_words))
fdist_sw_before_del = FreqDist(all_words)
most_comm_before_del = fdist_sw_before_del.most_common(10)
print("Топ-10 самых часто употребляемых слов до удаления стоп слов: ", *most_comm_before_del, sep="\n")



words_after_del = recipes["description_no_stopwords"].apply(lambda x: word_tokenize(x))
words_after_del = list(flatten(words_after_del))
fdist_sw_after_del = FreqDist(words_after_del)
most_comm_after_del = fdist_sw_after_del.most_common(10)
print("\n", "Топ-10 самых часто употребляемых слов после удаления стоп слов: ", *most_comm_after_del, sep="\n")



stop_words = [s_w for s_w in all_words if s_w in russian_stopwords]
diff = round(len(stop_words)/len(all_words), 3)
print("\n", "Доля стоп-слов среди общего количества слов :", diff)

### Векторное представление текста

6\. Выберите случайным образом 5 рецептов из набора данных, в названии которых есть слово "оладьи" (без учета регистра). Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`. На основе полученных векторов создайте `pd.DataFrame`, в котором названия колонок соответствуют словам из словаря объекта-векторизатора. 

Примечание: обратите внимание на порядок слов при создании колонок.

In [None]:
# patt1 = re.compile(r"оладьи", re.I)
# res1 = recipes["name"].str.findall(patt1)
# res1 = res1[res1.apply(len) > 0]
# print(len(res1))

In [None]:
# -------------------------------------------------------------------------------

In [None]:
# vectorizer = TfidfVectorizer(analyzer="word", stop_words="english")
# vectorizer.fit(data["preprocessed_descriptions"])

# def vectorizer_processing(x):
#     sents = [x["preprocessed_descriptions"]]
#     vector = vectorizer.transform(sents)
#     return vector.toarray()

# data['TfidfVectorizer'] = data.apply(lambda x: vectorizer_processing(x), axis=1)

In [None]:
lst_with_desc

In [None]:
lst_with_desc = list(flatten(recipes[recipes["name"].str.contains(r"\оладьи\b", case = False)].sample(5)[["description"]].values))
# lst_with_desc

cv = CountVectorizer().fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

7\. Вычислите близость между каждой парой рецептов, выбранных в задании 6, используя косинусное расстояние (можно воспользоваться функциями из любого пакета: `scipy`, `scikit-learn` или реализовать функцию самому). Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

Примечание: обратите внимание, что $d_{cosine}(x, x) = 0$

8\. Напишите функцию, которая принимает на вход `pd.DataFrame`, полученный в задании 7, и возвращает в виде кортежа названия двух различных рецептов, которые являются наиболее похожими. Прокомментируйте результат (в виде текстового комментария). Для объяснения результата сравните слова в описаниях двух этих отзывов.

In [None]:
def find_closest(sim_df: pd.DataFrame) -> tuple:
    pass