# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [14]:
p = pd.read_csv('C:\\Users\\1\\Downloads\\07_nlp\\preprocessed_descriptions.csv')

from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

words = set()
for i in p['description']:
    words.update([word for word in word_tokenize(str(i)) if word.isalpha()])
print(words)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\1\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!




1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [32]:
from nltk.metrics import edit_distance
import random

for i in range(5):
    rw = random.sample(list(words), 2)
    distance = edit_distance(rw[0], rw[1])
    print(f"Расстояние между {rw[0]} и {rw[1]}: {distance}")

Расстояние между burner и gooey: 5
Расстояние между byrn и restless: 8
Расстояние между marshmallow и lingonsylt: 10
Расстояние между guerrero и explode: 8
Расстояние между deconstructs и hardcore: 11


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [38]:
import heapq

def closest_words(word, words, k):
    distances = []
    
    for w in words:
        distance = edit_distance(word, w)
        distances.append((distance, w))
    closest = heapq.nsmallest(k, distances)
    return [w[1] for w in closest]

closest_words('blepandekager', words, 5)

['alexander', 'blender', 'breadmaker', 'breakage', 'leakage']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [42]:
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('omw-1.4')

stemmer = SnowballStemmer("english")
lemmatizer = WordNetLemmatizer()

data = []
for word in words:
    stemmed_word = stemmer.stem(word)
    normalized_word = lemmatizer.lemmatize(word)
    data.append([word, stemmed_word, normalized_word])

df = pd.DataFrame(data, columns=["word", "stemmed_word", "normalized_word"])

print(df)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\1\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\1\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


           word stemmed_word normalized_word
0          faux         faux            faux
1         neice         neic           neice
2      briningt     briningt        briningt
3          hula         hula            hula
4          each         each            each
...         ...          ...             ...
22044     sacks         sack            sack
22045      hole         hole            hole
22046  koubideh     koubideh        koubideh
22047   chengdu      chengdu         chengdu
22048    sizzle        sizzl          sizzle

[22049 rows x 3 columns]


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [48]:
from nltk.corpus import stopwords
nltk.download('stopwords')

sw = stopwords.words('english')
nsw = [i for i in words if i not in sw]

print(f'Ответ: {(len(words) - len(nsw)) / len(words) * 100}')

Ответ: 0.6576261961993741


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\1\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [53]:
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize import sent_tokenize

exs = p.sample(5)
tf = TfidfVectorizer()

for i in exs['description']:
    print(tf.fit_transform(sent_tokenize(i)).toarray())

[[0.22941573 0.22941573 0.22941573 0.         0.22941573 0.
  0.         0.22941573 0.         0.22941573 0.         0.45883147
  0.22941573 0.22941573 0.         0.22941573 0.45883147 0.
  0.22941573 0.22941573]
 [0.         0.         0.         0.37796447 0.         0.37796447
  0.37796447 0.         0.37796447 0.         0.37796447 0.
  0.         0.         0.37796447 0.         0.         0.37796447
  0.         0.        ]]
[[0.         0.         0.         0.         0.         0.
  0.         0.         0.27418536 0.         0.         0.27418536
  0.         0.         0.27418536 0.         0.22121103 0.
  0.         0.         0.         0.27418536 0.27418536 0.
  0.         0.         0.         0.         0.         0.27418536
  0.         0.         0.         0.         0.         0.
  0.         0.27418536 0.         0.27418536 0.         0.27418536
  0.         0.         0.27418536 0.         0.         0.
  0.         0.         0.22121103 0.27418536 0.         0.
 

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).