# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [8]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [9]:
s1 = 'ПИ19-4'
s2 = 'ПИ19-3'
edit_distance(s1, s2)

1

In [25]:
with open("./data/data/litw-win.txt") as fp:
	words = [line.strip().split()[-1] for line in fp]
words

['и',
 'в',
 'я',
 'с',
 'а',
 'к',
 'у',
 'о',
 'н',
 'п',
 'ж',
 'б',
 'т',
 'д',
 'м',
 'ч',
 'з',
 'г',
 'е',
 'р',
 'э',
 'л',
 'х',
 'ш',
 'ф',
 'ц',
 'щ',
 'й',
 'ю',
 'ы',
 'ъ',
 'ь',
 'не',
 'на',
 'он',
 'то',
 'но',
 'же',
 'вы',
 'по',
 'да',
 'за',
 'бы',
 'ты',
 'от',
 'из',
 'ее',
 'до',
 'ну',
 'ни',
 'ли',
 'уж',
 'во',
 'их',
 'мы',
 'со',
 'ей',
 'об',
 'ко',
 'ах',
 'им',
 'ка',
 'та',
 'пр',
 'те',
 'чт',
 'ту',
 'го',
 'де',
 'вс',
 'эт',
 'мо',
 'ра',
 'ст',
 'ха',
 'хе',
 'ум',
 'се',
 'эх',
 'гм',
 'ме',
 'св',
 'ль',
 'ег',
 'пе',
 'ва',
 'са',
 'ве',
 'ох',
 'бо',
 'хо',
 'че',
 'сл',
 'од',
 'бе',
 'мн',
 'ай',
 'ею',
 'ос',
 'ск',
 'ви',
 'ми',
 'ма',
 'сп',
 'ба',
 'ес',
 'бу',
 'гл',
 'що',
 'эй',
 'ем',
 'кр',
 'см',
 'др',
 'лю',
 'па',
 'ро',
 'зн',
 'ле',
 'як',
 'тр',
 'жи',
 'ел',
 'ус',
 'фу',
 'дв',
 'ру',
 'ал',
 'ой',
 'си',
 'ду',
 'вз',
 'ещ',
 'хи',
 'чи',
 'вд',
 'ил',
 'ух',
 'ча',
 'гр',
 'пи',
 'бл',
 'ре',
 'су',
 'ге',
 'ку',
 'оп',
 'ж

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [11]:
word = "велечайшим"

In [12]:
min(words, key=lambda k: edit_distance(k, word))

'величайшим'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [14]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('russian')
word2 = "попреблагорассмотрительствующемуся"
word1 = "попреблагорассмотрительствующимся"
stemmer.stem(word1)

'попреблагорассмотрительств'

In [18]:
morph = pymorphy2.MorphAnalyzer()

morph.parse(word)[0].normalized.word

'попреблагорассмотрительствующийся'

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [19]:
from nltk import sent_tokenize

text = """Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`"""
sents = sent_tokenize(text)
sents

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`']

In [21]:
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]], dtype=int64)

In [22]:
sents_cv.shape

(3, 35)

In [24]:
cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

In [4]:
import pandas as pd
import numpy as np
import pymorphy2
import nltk

from sklearn.feature_extraction.text import CountVectorizer
from nltk.metrics.distance import edit_distance

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [3]:
preprocessed_descriptions = pd.read_csv("./data/data/preprocessed_descriptions.csv")
preprocessed_descriptions

Unnamed: 0,name,description
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,these were so go it surprised even me
3,italian gut busters,my sisterinlaw made these for us at a family g...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought ...
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,zydeco soup,this is a delicious soup that i originally fou...


In [7]:
preprocessed_descriptions["description"].iloc[1]

'my children and their friends ask for my homemade popsicles morning noon and night i never turn them down who am i to tell them that they are good for them for variety i substitute different flavours of frozen juice  grape fruit punch tropical etc'

In [28]:
words = set()
preprocessed_descriptions["description"].map(lambda x: [words.add(i) for i in nltk.word_tokenize(str(x))])
words

{'wzt',
 'cheetos',
 'gourmets',
 'timeherb',
 'favoriteseasy',
 'gettogethers',
 'guadalajara',
 'cyman',
 'sept',
 'byerlys',
 'stylish',
 'httpwwwfoodnetworkcarecipesmainbeefrecipehtmldishid10409',
 'hungarianaustrian',
 'softens',
 'situations',
 'chad',
 'catcher',
 'huge',
 'monteray',
 'receipt',
 'moruga',
 '142',
 '67',
 'johnston',
 'good071908',
 'stewand',
 'awayand',
 'frugalmomscom',
 'pecans',
 'lapine',
 'delicioussome',
 'sweede',
 'recommend',
 'cattlemens',
 'driedout',
 'tucked',
 'httpallrecipescomau',
 'ouso',
 'desertthis',
 'sore',
 'extrafirm',
 'karpenko',
 '94437',
 'cerole',
 'barbq',
 'vet',
 'mainline',
 'brar',
 'kusal',
 'selfcontained',
 'slow',
 'verify',
 'centuryold',
 'searved',
 'tummywarmer',
 'gl',
 'lather',
 'hansen',
 '68981',
 'recipes4uscouk',
 'timehonored',
 'shaved',
 'spotprep',
 'organs',
 'mexi',
 'hallacas',
 'constructive',
 'tomatoe',
 'silly',
 'vatiety',
 'recipescom',
 'onew',
 'quirk',
 'reeses',
 'emailing',
 'popularity',
 'ad

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [34]:
import random
words_list = random.sample(words, 5)

since Python 3.9 and will be removed in a subsequent version.
  words_list = random.sample(words, 5)


In [37]:
words_list

['grouper', 'corresponding', 'ferment', 'zurie', 'peacefulnightdove']

In [61]:
matrix = np.ones((5, 5))
for i in range(len(words_list)):
    for j in range(len(words_list)):
	    matrix[i][j] = edit_distance(words_list[i], words_list[j])

matrix = pd.DataFrame(matrix)
matrix.columns = words_list
matrix.index = words_list
matrix

Unnamed: 0,grouper,corresponding,ferment,zurie,peacefulnightdove
grouper,0.0,11.0,7.0,6.0,16.0
corresponding,11.0,0.0,10.0,11.0,14.0
ferment,7.0,10.0,0.0,5.0,13.0
zurie,6.0,11.0,5.0,0.0,14.0
peacefulnightdove,16.0,14.0,13.0,14.0,0.0


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [64]:

# k = 1

In [66]:
word = "visor"
min(words, key=lambda k: edit_distance(k, word))

'vino'

In [67]:
edit_distance(word, words_list)

5

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для лемматизации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).