# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [9]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

from nltk.metrics.distance import edit_distance

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [10]:
s1 = 'ПИ19-3'
s2 = 'ПМ19-3'

edit_distance(s1, s2)

1

In [11]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''
word = 'велечайшим'

with open("./data/litw-win.txt", encoding="windows-1251") as f:
    words = [line.strip().split()[-1] for line in f]
words[-5:]

['высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [None]:
min(words, key=lambda w: edit_distance(w, word))

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [13]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('russian')
word = 'попреблагорассмотрительствующемуся'
stemmer.stem(word)

'попреблагорассмотрительств'

In [14]:
morph = pymorphy2.MorphAnalyzer()
word = 'попреблагорассмотрительствующемуся'
morph_word = morph.parse(word)[0]
print(morph_word.normal_form)
print(morph_word.tag)


попреблагорассмотрительствующийся
ADJF masc,sing,datv


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [15]:
from nltk import sent_tokenize
text = "Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. "
sents = sent_tokenize(text)
print(sents)
cv = CountVectorizer()
X = cv.fit_transform(sents)
print(X.toarray())
# 3 предложения и 35 уникальных слов
print(cv.vocabulary_)
print(X.shape)

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.', 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.', 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.']
[[1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 0]
 [0 0 0 1 1 1 0 0 0 1 1 0 1 1 0 1 1 0 1 0 1 1 1 1 2 0 0 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 1 0 1 0 1 0 1 0 1]]
{'считайте': 32, 'слова': 24, 'из': 12, 'файла': 33, 'litw': 0, 'win': 2, 'txt': 1, 'запишите': 11, 'их': 14, 'список': 31, 'words': 3, 'заданном': 9, 'предложении': 22, 'исправьте': 13, 'все': 5, 'опечатки': 21, 'заменив': 10, 'опечатками': 20, 'на': 16, 'ближайшие': 4, 'смысле': 27, 'расстояния': 23, 'левенштейна': 15, 'ним': 18, 'списка': 29, 'что': 34, 'слове': 25, 'есть': 8, 'опечатка': 19, 'если': 7, 'данное': 6, 'слово': 26, 'не': 17, 'содержится': 

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [1]:
import pandas as pd
import nltk
from nltk.metrics.distance import edit_distance

reviews = pd.read_csv("./data/preprocessed_descriptions.csv")
reviews.head()

Unnamed: 0,name,preprocessed_descriptions
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,these were so go it surprised even me
3,italian gut busters,my sisterinlaw made these for us at a family g...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...


In [25]:
# alternative solution

# import itertools
# res = reviews["preprocessed_descriptions"].agg(lambda text: nltk.word_tokenize(str(text)))
# result = list(itertools.chain(*res))
# len(result)


In [2]:

rev = []
for text in reviews["preprocessed_descriptions"]:
    rev.extend(nltk.word_tokenize(str(text)))
print(len(rev)) #1072517


1072517


In [3]:
words = set()
for r in rev:
    words.add(r.lower())
print(len(words)) #30868

30868


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [49]:
import random
pairs = 5
choise = random.sample(list(words), pairs*2)
print(f"Список слов: {choise}\n")

print(f"{'Слово №1':20} {'Слово №2':15} Расстояние")
for i in range(pairs):
    word_1, word_2 = choise.pop(), choise.pop()
    print(f"{word_1:20} {word_2:15} {edit_distance(word_1, word_2):^10}")


Список слов: ['awesomehence', 've', 'tastelessness', 'tartlets', 'freezerpantry', 'zereshk', '167664', 'orient', 'mono', 'them']

Слово №1             Слово №2        Расстояние
them                 mono                4     
orient               167664              6     
zereshk              freezerpantry       10    
tartlets             tastelessness       7     
ve                   awesomehence        11    


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [51]:
def nearest_words(word, k):
    d = {}
    for item in words:
        d[item] = edit_distance(word, item)
        
    d.pop(word)

    min_d = {}
    for i in range(k):
        min_d[i] = min(d, key=d.get)
        d.pop(min_d[i])
    return min_d.values()


print(nearest_words('word', 5))


dict_values(['words', 'woud', 'ward', 'ford', 'wore'])


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для лемматизации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [30]:
from nltk.stem import SnowballStemmer, WordNetLemmatizer

# nltk.download('wordnet')
stemmer = SnowballStemmer('english')
lemmer = WordNetLemmatizer()

df = pd.DataFrame(index=words)
df['stemmed_word'] = [stemmer.stem(word) for word in words]
df['normalize_word'] = [lemmer.lemmatize(word) for word in words]

print(df[9:24])


             stemmed_word normalize_word
mandell            mandel        mandell
gasp                 gasp           gasp
dram                 dram           dram
meltedcheese  meltedchees   meltedcheese
sweaty             sweati         sweaty
receive            receiv        receive
greenspan       greenspan      greenspan
stewpot           stewpot        stewpot
mindand           mindand        mindand
stained             stain        stained
impossibly         imposs     impossibly
hotsweet         hotsweet       hotsweet
hotpot             hotpot         hotpot
bachs                bach           bach
healthied         healthi      healthied


2.2. Удалите стоп-слова из описаний рецептов. Какую долю от общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [52]:
from nltk.corpus import stopwords
# nltk.download('stopwords')

words_not_uniq = []
for text in reviews["preprocessed_descriptions"]:
    words_not_uniq.extend(nltk.word_tokenize(str(text)))


print(len(words_not_uniq))

stw_list = stopwords.words("english")
without_sw = [i for i in words_not_uniq if not i in stw_list]

print(len(without_sw))


1072517
582574


In [53]:
from collections import Counter
print(f"Доля: {round((len(words_not_uniq)-len(without_sw))/len(words_not_uniq), 4)}")
all_words = Counter(words_not_uniq).most_common(10)
without_stop = Counter(without_sw).most_common(10)
print(f"{all_words = }")
print(f"{without_stop = }")


Доля: 0.4568
all_words = [('the', 40210), ('a', 34994), ('and', 30279), ('this', 27048), ('i', 25111), ('to', 23499), ('is', 20290), ('it', 19863), ('of', 18372), ('for', 15988)]
without_stop = [('recipe', 14957), ('make', 6353), ('time', 5180), ('use', 4635), ('great', 4453), ('like', 4175), ('easy', 4175), ('one', 3886), ('good', 3820), ('made', 3814)]


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [34]:
review = reviews.fillna("").sample(5)
headers = review["name"].to_list()
text = review["preprocessed_descriptions"].to_list()

In [35]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
# print(vectorizer.get_feature_names())

X = vectorizer.fit_transform(text)
print(X.shape)
print(X.toarray())


(5, 134)
[[0.         0.         0.         0.14273979 0.16083421 0.
  0.         0.         0.14273979 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.14273979 0.         0.         0.14273979 0.
  0.         0.         0.         0.         0.         0.
  0.         0.14273979 0.         0.         0.         0.14273979
  0.         0.         0.11516156 0.14273979 0.         0.
  0.         0.         0.14273979 0.42821937 0.         0.
  0.         0.         0.         0.         0.24125132 0.46064625
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.14273979 0.
  0.         0.         0.         0.         0.14273979 0.
  0.         0.         0.         0.         0.08041711 0.
  0.14273979 0.         0.         0.         0.         0.
  0.         0.         0.11516156 0.         0.         0.
  0.         0.14273979 0.         0.         0.14273979 0.
  0.         0.

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [36]:
pair_similarity = (X * X.T).toarray()

df = pd.DataFrame(data=pair_similarity, columns=[i for i in headers])
rows = df["rows"] = [i for i in headers]
df.drop(labels=['rows'], axis=1, inplace=True)
df.insert(0, "rows", rows)
print(df)


                                      rows  mom s cranberries  \
0                        mom s cranberries           1.000000   
1         beer n  butter poultry injection           0.160256   
2             peanut butter pudding  vegan           0.000000   
3          spicy lentil and vegetable dish           0.065597   
4  craftier than kraft macaroni and cheese           0.109045   

   beer n  butter poultry injection  peanut butter pudding  vegan  \
0                          0.160256                           0.0   
1                          1.000000                           0.0   
2                          0.000000                           1.0   
3                          0.184521                           0.0   
4                          0.179526                           0.0   

   spicy lentil and vegetable dish  craftier than kraft macaroni and cheese  
0                         0.065597                                 0.109045  
1                         0.184521    

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

### Комментарий:
Чем ближе коэффициент по столбцу или строке к единице, тем больше схожесть текстов.
<br>Единица в матрице, говорит нам о том, что текст идентичный.</br>