# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [19]:
pip install pymorphy2

Note: you may need to restart the kernel to use updated packages.


In [20]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

In [21]:
import pandas as pd

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [22]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [23]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('russian')
word = 'попреблагорассмотрительствующимуся'
stemmer.stem(word)

'попреблагорассмотрительствующим'

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [24]:
from nltk import sent_tokenize
text = '''Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'''

setns = sent_tokenize(text)
setns

['Считайте слова из файла litw-win.txt и запишите их в список words.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.']

In [25]:
cv = CountVectorizer()
cv.fit(setns)
cv_sents = cv.transform(setns).toarray()
cv_sents

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]])

In [26]:
cv_sents.shape

(3, 35)

In [27]:
cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [28]:
from nltk.tokenize import word_tokenize

In [29]:
desc = pd.read_csv('preprocessed_descriptions.csv')
descriptions = desc['preprocessed_descriptions'].dropna().to_list()

In [30]:
spisok = []
for el in descriptions:
    a = word_tokenize(el)
    for word in a:
        spisok.append(word)

spisok

['an',
 'original',
 'recipe',
 'created',
 'by',
 'chef',
 'scott',
 'meskan',
 'george',
 's',
 'at',
 'the',
 'cove',
 'we',
 'enjoyed',
 'this',
 'when',
 'we',
 'visited',
 'this',
 'restaurant',
 'in',
 'la',
 'jolla',
 'california',
 'this',
 'recipe',
 'is',
 'requested',
 'so',
 'often',
 'they',
 'have',
 'it',
 'printed',
 'and',
 'ready',
 'at',
 'the',
 'hostess',
 'stand',
 'it',
 's',
 'unbeatable',
 'at',
 'the',
 'restaurant',
 'but',
 'i',
 'do',
 'a',
 'pretty',
 'good',
 'job',
 'at',
 'home',
 'too',
 'if',
 'i',
 'do',
 'say',
 'so',
 'myself',
 'my',
 'children',
 'and',
 'their',
 'friends',
 'ask',
 'for',
 'my',
 'homemade',
 'popsicles',
 'morning',
 'noon',
 'and',
 'night',
 'i',
 'never',
 'turn',
 'them',
 'down',
 'who',
 'am',
 'i',
 'to',
 'tell',
 'them',
 'that',
 'they',
 'are',
 'good',
 'for',
 'them',
 'for',
 'variety',
 'i',
 'substitute',
 'different',
 'flavours',
 'of',
 'frozen',
 'juice',
 'grape',
 'fruit',
 'punch',
 'tropical',
 'etc',


In [31]:
len(spisok)

1103669

In [32]:
unique_words = list(set(spisok))
len(unique_words)

24554

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [33]:
import numpy as np
import nltk

In [34]:
pairs_5 = np.random.choice(unique_words,(5,2))
len(pairs_5)

5

In [40]:
for pair in pairs_5:
    print(f'Редакторское расстояние между {str(pair[0])} и {str(pair[1])} = {nltk.edit_distance(str(pair[0]), str(pair[1]))}')  

Редакторское расстояние между moronga и disguising = 9
Редакторское расстояние между chocked и what = 6
Редакторское расстояние между albany и foodstands = 8
Редакторское расстояние между 830 и novelist = 8
Редакторское расстояние между pudin и pate = 4


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [43]:
def k_words(slovo, k, spisok):
    perebor = []
    for i in range(len(spisok)):
        dist = nltk.edit_distance(slovo, spisok[i])
        perebor.append([dist, spisok[i]])
    perebor.sort()    
    print(perebor[:k])

In [44]:
k_words('lovely', 3, unique_words)

[[0, 'lovely'], [1, 'dovely'], [1, 'lively']]


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для лемматизации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [47]:
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer

nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/margaritakaculak/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [48]:
stemmer = SnowballStemmer(language='english')
stemm = []
for word in unique_words:
    stemm.append(stemmer.stem(word))

lemmatizer = WordNetLemmatizer()
lemm = []
for word in unique_words:
    lemm.append(lemmatizer.lemmatize(word))

In [58]:
stemm_lemm = pd.DataFrame({'word': unique_words, 'stemmed_word': stemm, 'normalized_word': lemm})
stemm_lemm = stemm_lemm.set_index('word')
stemm_lemm

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
mangoes,mango,mango
unknown,unknown,unknown
01,01,01
000,000,000
press,press,press
...,...,...
pyramids,pyramid,pyramid
aloha,aloha,aloha
argentinian,argentinian,argentinian
purplish,purplish,purplish


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [59]:
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/margaritakaculak/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [95]:
# вспомним о списке всех слов в описаниях из задания 1.1
from collections import Counter

count_spisok = Counter(spisok)
count_spisok = dict(count_spisok)
sort_count_spisok = sorted(count_spisok.items(), key = lambda x: x[1], reverse = True)

# top-10 Before
sort_count_spisok[:10]

[('the', 40410),
 ('a', 35125),
 ('and', 30584),
 ('i', 27945),
 ('this', 27181),
 ('to', 23598),
 ('it', 23300),
 ('is', 20306),
 ('of', 18405),
 ('for', 16022)]

In [99]:
# минус стоп-слова
stop_words = stopwords.words('english')

spisok_noSW = [word for word in spisok if word not in stop_words]
spisok_noSW

['original',
 'recipe',
 'created',
 'chef',
 'scott',
 'meskan',
 'george',
 'cove',
 'enjoyed',
 'visited',
 'restaurant',
 'la',
 'jolla',
 'california',
 'recipe',
 'requested',
 'often',
 'printed',
 'ready',
 'hostess',
 'stand',
 'unbeatable',
 'restaurant',
 'pretty',
 'good',
 'job',
 'home',
 'say',
 'children',
 'friends',
 'ask',
 'homemade',
 'popsicles',
 'morning',
 'noon',
 'night',
 'never',
 'turn',
 'tell',
 'good',
 'variety',
 'substitute',
 'different',
 'flavours',
 'frozen',
 'juice',
 'grape',
 'fruit',
 'punch',
 'tropical',
 'etc',
 'go',
 'surprised',
 'even',
 'sister',
 'law',
 'made',
 'us',
 'family',
 'get',
 'together',
 'delicious',
 'little',
 'messy',
 'make',
 'worth',
 'effort',
 'helper',
 'make',
 'think',
 'fondue',
 'romantic',
 'casual',
 'dinner',
 'wonderful',
 'theatre',
 'snack',
 'served',
 'robust',
 'red',
 'wine',
 'dinner',
 'serve',
 'rice',
 'small',
 'salad',
 'almond',
 'rice',
 'pilaf',
 'great',
 'accompaniment',
 'recipe',
 'p

In [103]:
print('Доля стоп-слов в spisok =', round((1 - len(spisok_noSW)/len(spisok))*100, 2), '%')

Доля стоп-слов в spisok = 47.13 %


In [104]:
count_spisok_noSW = Counter(spisok_noSW)
count_spisok_noSW = dict(count_spisok_noSW)
sort_count_spisok_noSW = sorted(count_spisok_noSW.items(), key = lambda x: x[1], reverse = True)

# top-10 After
sort_count_spisok_noSW[:10]

[('recipe', 15195),
 ('make', 6438),
 ('time', 5287),
 ('use', 4652),
 ('great', 4522),
 ('like', 4276),
 ('easy', 4263),
 ('one', 4018),
 ('good', 3886),
 ('made', 3874)]

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [105]:
rec_5 = desc.sample(n = 5)
rec_5

Unnamed: 0,name,preprocessed_descriptions
7243,cocktel de camarones shrimp cocktail,courtesy of cooking light recipe does not incl...
26101,strawberry spinach chicken salad,this is so refreshing and not too hard to make...
18208,mrs field s cookies,as far as i know this is an authentic mrs fiel...
29466,wine meatball appetizer,i have no idea where my mom got this recipe bu...
29560,ww 2 points potato pepper and egg scramble,from ww simply delicious


In [119]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfid = TfidfVectorizer()
desc_rec_5 = rec_5['preprocessed_descriptions'].tolist()
tfid_desc_rec_5 = tfid.fit_transform(desc_rec_5)
rec_5['tfid'] = tfid_desc_rec_5
rec_5

Unnamed: 0,name,preprocessed_descriptions,tfid
7243,cocktel de camarones shrimp cocktail,courtesy of cooking light recipe does not incl...,"(0, 19)\t0.3165390625641499\n (0, 97)\t0.21..."
26101,strawberry spinach chicken salad,this is so refreshing and not too hard to make...,"(0, 19)\t0.3165390625641499\n (0, 97)\t0.21..."
18208,mrs field s cookies,as far as i know this is an authentic mrs fiel...,"(0, 19)\t0.3165390625641499\n (0, 97)\t0.21..."
29466,wine meatball appetizer,i have no idea where my mom got this recipe bu...,"(0, 19)\t0.3165390625641499\n (0, 97)\t0.21..."
29560,ww 2 points potato pepper and egg scramble,from ww simply delicious,"(0, 19)\t0.3165390625641499\n (0, 97)\t0.21..."


In [122]:
tf = tfid_desc_rec_5.toarray()
tf

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.31653906, 0.        , 0.        , 0.        , 0.31653906,
        0.        , 0.        , 0.31653906, 0.        , 0.31653906,
        0.        , 0.        , 0.31653906, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.31653906,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.31653906,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.2119899 , 0.17833259,
        0.        , 0.        , 0.        , 0.  

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [130]:
from scipy import spatial

cos = []
for i in tf:
    aga = []
    for j in tf:
        aga.append(spatial.distance.cosine(i,j))
    cos.append(aga)
    
cosichka = pd.DataFrame(cos, columns = range(1,6), index = range(1,6))  
cosichka

Unnamed: 0,1,2,3,4,5
1,0.0,0.91205,0.845535,0.934373,1.0
2,0.91205,0.0,0.824778,0.857541,1.0
3,0.845535,0.824778,0.0,0.898326,0.965779
4,0.934373,0.857541,0.898326,0.0,1.0
5,1.0,1.0,0.965779,1.0,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

Из выбранных мной рецептов, наиболее схожими являются 2 и 3, тк этот результат ближе к 0