# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [3]:
!pip install pymorphy2



In [15]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance
from nltk.stem import SnowballStemmer
from nltk.tokenize import sent_tokenize, word_tokenize
import pandas as pd
from nltk.tokenize import word_tokenize
import nltk
from nltk.corpus import stopwords
from nltk.probability import FreqDist
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.spatial import distance
import random

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [5]:
data = open("data/litw-win.txt", "r")
words = [line.split()[-1] for line in data]
words[-10:]

['облагодетельствованным',
 'облагодетельствованных',
 'председательствовавший',
 'стадвадцатипятирублевой',
 'высокопревосходительство',
 'высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [6]:
word_test = "уменьшевшейся"
min(words[-10:], key=lambda x: edit_distance(x, word_test))

'уменьшившейся'

In [7]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [8]:
st = SnowballStemmer('russian')
text1 = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
for sent in sent_tokenize(text1):
    for word in word_tokenize(sent):
        res = st.stem(word)
        print(res)

счита
слов
из
файл
`
litw-win.txt
`
и
запиш
их
в
список
`
words
`
.
в
зада
предложен
исправьт
все
опечатк
,
замен
слов
с
опечатк
на
ближайш
(
в
смысл
расстоян
левенштейн
)
к
ним
слов
из
списк
`
words
`
.
счита
,
что
в
слов
ест
опечатк
,
есл
дан
слов
не
содерж
в
списк
`
words
`
.


In [10]:
mor = pymorphy2.MorphAnalyzer()
norm = []
for word in word_tokenize(text):
    res = mor.parse(word)[0].normalized.word 
    norm.append(res)
print(norm)

['с', 'велечайший', 'усилие', 'выбраться', 'из', 'поток', 'убегать', 'человек', 'кутузов', 'с', 'свита', 'уменьшевшийся', 'вдвое', 'поехать', 'на', 'звук', 'выстрел', 'русский', 'орудие']


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [11]:
text_from_task_1 = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
sents = sent_tokenize(text_from_task_1 )
sents

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.']

In [12]:
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]], dtype=int64)

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [13]:
preprocessed_descriptions = pd.read_csv("./data/preprocessed_descriptions.csv")
preprocessed_descriptions

Unnamed: 0,name,preprocessed_descriptions
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,"these were so go, it surprised even me."
3,italian gut busters,my sister-in-law made these for us at a family...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,"this is a traditional fresh plum cake, thought..."
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,zydeco soup,this is a delicious soup that i originally fou...


In [14]:
my_arr = []
for x in preprocessed_descriptions["preprocessed_descriptions"]:
    my_arr.extend(word_tokenize(str(x)))   
arr = list(set(my_arr))
arr

['aust',
 'grands',
 'viniger',
 'owes',
 'paris',
 'strawbwrries',
 'cam',
 'bueno',
 'cames',
 'apprentice',
 'bardot',
 "did'nt",
 'hall',
 'margie',
 'herbal',
 'htipiti',
 'sold/known',
 'jackie',
 '1986',
 'streusel-topped',
 'mayone',
 'anti-flatulent',
 'scary',
 'matza',
 'turorial',
 'lobel',
 'murcia',
 'roomate',
 'pastause',
 'pikelet',
 'mucky',
 'muffins',
 'on.i',
 'effectively',
 'condition',
 'roti',
 "'keen-wa",
 'keeper',
 'ugh',
 'hammock',
 'admired',
 '4.99',
 'fungus',
 'scroll',
 "'braises",
 'perrenial',
 'hard',
 'herbs.then',
 'versus',
 'persia',
 'liquefy',
 'diyarbakir',
 'yep-',
 'emphasis',
 "'coctel",
 '1800s',
 'principals',
 'victor',
 'breadcrumbs',
 'mmmmmm',
 'anti',
 'inebriated',
 'energy',
 'patterson',
 'scicolone',
 'shakelike',
 'inspires',
 'deep-fried',
 'spelling',
 'canada',
 'reindeer',
 'daisybrand.com',
 'bands',
 'sturgis',
 'liberate',
 '//www.uga.edu/nchfp/how/can_home.html',
 'pcbs',
 'atcheson',
 'winos',
 'sugar-spice-and-all-th

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [16]:
pair1 = random.sample(arr, 5)
pair1

['totmato', 'rosatella', 'error', 'couric', 'brwn']

In [19]:
pair2 = random.sample(arr, 5)
pair2

['comforts', 'improving', 'housemaid', 'diets', 'consumed']

In [25]:
for i in range(5):
    print(f"Расстояние редактирования {i+1} пары: ", edit_distance(pair1[i], pair2[i]))

Расстояние редактирования 1 пары:  6
Расстояние редактирования 2 пары:  9
Расстояние редактирования 3 пары:  8
Расстояние редактирования 4 пары:  6
Расстояние редактирования 5 пары:  8


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [29]:
def findWordsForWord(word, words, k):
    for_word_list = []
    for i in range(k):
        dist = min(words, key=lambda w: edit_distance(w, word))
        for_word_list.append(dist)
        words.remove(dist)
    return for_word_list

In [34]:
new_arr = arr.copy()
a = findWordsForWord("effectively", new_arr, 10)
a

['effectively',
 'effective',
 'efective',
 'respectively',
 'creatively',
 'addictively',
 'deceptively',
 'excessively',
 'extensively',
 'detective']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для лемматизации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [42]:
arr

['aust',
 'grands',
 'viniger',
 'owes',
 'paris',
 'strawbwrries',
 'cam',
 'bueno',
 'cames',
 'apprentice',
 'bardot',
 "did'nt",
 'hall',
 'margie',
 'herbal',
 'htipiti',
 'sold/known',
 'jackie',
 '1986',
 'streusel-topped',
 'mayone',
 'anti-flatulent',
 'scary',
 'matza',
 'turorial',
 'lobel',
 'murcia',
 'roomate',
 'pastause',
 'pikelet',
 'mucky',
 'muffins',
 'on.i',
 'effectively',
 'condition',
 'roti',
 "'keen-wa",
 'keeper',
 'ugh',
 'hammock',
 'admired',
 '4.99',
 'fungus',
 'scroll',
 "'braises",
 'perrenial',
 'hard',
 'herbs.then',
 'versus',
 'persia',
 'liquefy',
 'diyarbakir',
 'yep-',
 'emphasis',
 "'coctel",
 '1800s',
 'principals',
 'victor',
 'breadcrumbs',
 'mmmmmm',
 'anti',
 'inebriated',
 'energy',
 'patterson',
 'scicolone',
 'shakelike',
 'inspires',
 'deep-fried',
 'spelling',
 'canada',
 'reindeer',
 'daisybrand.com',
 'bands',
 'sturgis',
 'liberate',
 '//www.uga.edu/nchfp/how/can_home.html',
 'pcbs',
 'atcheson',
 'winos',
 'sugar-spice-and-all-th

In [44]:
st = SnowballStemmer('english')
mor2 = pymorphy2.MorphAnalyzer()
stemmed_word = []
normalized_words = []

for x in arr:
    res = st.stem(x)
    stemmed_word.append(res)
    res2 = mor2.parse(x)[0].normalized.word
    normalized_words.append(res2)


my_df = pd.DataFrame({'word' : arr,'stemmed_word' : stemmed_word,'normalized_word' : normalized_words}).set_index('word')
my_df

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
aust,aust,aust
grands,grand,grands
viniger,vinig,viniger
owes,owe,owes
paris,pari,paris
...,...,...
sicilian,sicilian,sicilian
chives,chive,chives
teammates,teammat,teammates
matt,matt,matt


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [45]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mpapa\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [52]:
words_stops_eng = set(stopwords.words("english")) #стоп-слова
print(words_stops_eng)

w_regex = re.compile('^[a-zA-Z]*$')

words_all = []
for x in preprocessed_descriptions["preprocessed_descriptions"]:
        for w in word_tokenize(str(x)):
            if w_regex.search(w):
                words_all.append(w)

words_all

{'whom', 'from', 'on', 'be', 'weren', 'theirs', 'if', 'will', 'me', 'few', 'an', 'ain', 'here', "don't", "couldn't", "needn't", 'in', 'there', 'she', 'won', 'the', "hadn't", 'own', 'themselves', 'which', 'o', 'yourselves', 'further', 'aren', 'doesn', 'we', 'herself', 'but', "isn't", 'yours', 'y', 'shouldn', 'into', 'very', 'my', 'off', 'so', 'him', 'down', 'to', "it's", 'been', "weren't", 'or', 'mightn', 'who', 'nor', 'where', 'myself', 'how', 'each', 'had', 'them', 'of', 'only', "haven't", 'i', 'about', 'this', 'any', 'his', 'out', 'some', 'll', "wouldn't", 'all', 'should', 'same', "should've", 'didn', 'no', 'a', 'between', "wasn't", 'these', 's', "shan't", "hasn't", 'has', 're', "mightn't", 'up', 'ourselves', 'our', 'having', "won't", 'it', 'too', 'than', 'then', 'isn', 'they', 'being', 'under', 'did', 'and', 'until', 'yourself', "aren't", 'because', 'more', 'after', 'such', 'as', 'against', 'what', "shouldn't", 'again', 'other', 'm', 'is', "that'll", 'can', 'needn', "doesn't", 'abov

['an',
 'original',
 'recipe',
 'created',
 'by',
 'chef',
 'scott',
 'meskan',
 'george',
 'at',
 'the',
 'cove',
 'we',
 'enjoyed',
 'this',
 'when',
 'we',
 'visited',
 'this',
 'restaurant',
 'in',
 'la',
 'jolla',
 'california',
 'this',
 'recipe',
 'is',
 'requested',
 'so',
 'often',
 'they',
 'have',
 'it',
 'printed',
 'and',
 'ready',
 'at',
 'the',
 'hostess',
 'stand',
 'it',
 'unbeatable',
 'at',
 'the',
 'restaurant',
 'but',
 'i',
 'do',
 'a',
 'pretty',
 'good',
 'job',
 'at',
 'home',
 'too',
 'if',
 'i',
 'do',
 'say',
 'so',
 'myself',
 'my',
 'children',
 'and',
 'their',
 'friends',
 'ask',
 'for',
 'my',
 'homemade',
 'popsicles',
 'morning',
 'noon',
 'and',
 'night',
 'i',
 'never',
 'turn',
 'them',
 'down',
 'who',
 'am',
 'i',
 'to',
 'tell',
 'them',
 'that',
 'they',
 'are',
 'good',
 'for',
 'them',
 'for',
 'variety',
 'i',
 'substitute',
 'different',
 'flavours',
 'of',
 'frozen',
 'juice',
 'grape',
 'fruit',
 'punch',
 'tropical',
 'etc',
 'these',
 '

In [53]:
words_no_stop = []
for w in words_all:
    if w not in words_stops_eng:
        words_no_stop.append(w)
words_no_stop

['original',
 'recipe',
 'created',
 'chef',
 'scott',
 'meskan',
 'george',
 'cove',
 'enjoyed',
 'visited',
 'restaurant',
 'la',
 'jolla',
 'california',
 'recipe',
 'requested',
 'often',
 'printed',
 'ready',
 'hostess',
 'stand',
 'unbeatable',
 'restaurant',
 'pretty',
 'good',
 'job',
 'home',
 'say',
 'children',
 'friends',
 'ask',
 'homemade',
 'popsicles',
 'morning',
 'noon',
 'night',
 'never',
 'turn',
 'tell',
 'good',
 'variety',
 'substitute',
 'different',
 'flavours',
 'frozen',
 'juice',
 'grape',
 'fruit',
 'punch',
 'tropical',
 'etc',
 'go',
 'surprised',
 'even',
 'made',
 'us',
 'family',
 'get',
 'together',
 'delicious',
 'little',
 'messy',
 'make',
 'worth',
 'effort',
 'helper',
 'make',
 'think',
 'fondue',
 'romantic',
 'casual',
 'dinner',
 'wonderful',
 'theatre',
 'snack',
 'served',
 'robust',
 'red',
 'wine',
 'dinner',
 'serve',
 'rice',
 'small',
 'salad',
 'almond',
 'rice',
 'pilaf',
 'great',
 'accompaniment',
 'recipe',
 'posted',
 'separatel

In [57]:
dolya = (len(words_all) - len(words_no_stop)) / len(words_all)
print(f"Доля стоп слов = {dolya}")

Доля стоп слов = 0.47381638741079746


In [59]:
print("Сравните топ-10 самых часто употребляемых слов до удаления стоп-слов.")
fdist = FreqDist(words_all)
print(fdist.most_common(10))
print()

print("Сравните топ-10 самых часто употребляемых слов после удаления стоп-слов.")
fdist2 = FreqDist(words_no_stop)
print(fdist2.most_common(10))

Сравните топ-10 самых часто употребляемых слов до удаления стоп-слов.
[('the', 40257), ('a', 35030), ('and', 30425), ('i', 27799), ('this', 27132), ('to', 23508), ('it', 23212), ('is', 20501), ('of', 18379), ('for', 15996)]

Сравните топ-10 самых часто употребляемых слов после удаления стоп-слов.
[('recipe', 15122), ('make', 6367), ('time', 5198), ('use', 4645), ('great', 4473), ('easy', 4206), ('like', 4186), ('one', 3916), ('good', 3847), ('made', 3819)]


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [73]:
random_rec = preprocessed_descriptions.sample(5)
random_rec

Unnamed: 0,name,preprocessed_descriptions
26028,strawberry dessert,this is so easy and so good. great for your de...
1792,baked chicken katsu,japanese breaded crispy chicken that you would...
11409,fresh pumpkin dip,this recipe is from taste of home magazine. we...
10914,feta olive and tomato dip,"use a feta that is not too salty, there can be..."
6615,chocolate french toast,"if you ask me, there's nothing better than cho..."


In [87]:
pr_desk = random_rec["preprocessed_descriptions"].to_list()
pr_desk

["this is so easy and so good. great for your dessert on a hot summer's day.",
 'japanese breaded crispy chicken that you would find in hawaiian restaurants. great healthy take out alternative. please note the nutrition facts for this recipe are not accurate.',
 'this recipe is from taste of home magazine. we love pumpkin so i had to try this recipe and we all loved it! a unique and creamy dip!',
 'use a feta that is not too salty, there can be quite a difference in flavor when you buy feta cheese. you can substitute the fresh tomatoes for sun-dried if you like a more pungent flavor, but use less and taste it before you add more. add several tablespoons of milk to turn the dip into a dressing. also very good to spread on a sandwich and top it with tomato and cucumber slices.',
 "if you ask me, there's nothing better than chocolate for breakfast! this scrumptious recipe comes from hersheys, although as usual i added my own notes about how to make it low-fat and dairy-free. i would defin

In [89]:
tv = TfidfVectorizer()

fit = tv.fit_transform(pr_desk)
tvarray = fit.toarray()
tvarray

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.16292585, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.28919221,
        0.        , 0.28919221, 0.        , 0.        , 0.        ,
        0.        , 0.28919221, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.16292585, 0.        , 0.        ,
        0.        , 0.23331846, 0.23331846, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.28919221, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.1936754 ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.  

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [93]:
table_near = pd.DataFrame(index=random_rec['name'], columns=random_rec['name'])
table_near

name,strawberry dessert,baked chicken katsu,fresh pumpkin dip,feta olive and tomato dip,chocolate french toast
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
strawberry dessert,,,,,
baked chicken katsu,,,,,
fresh pumpkin dip,,,,,
feta olive and tomato dip,,,,,
chocolate french toast,,,,,


In [123]:
table_near = pd.DataFrame(index=random_rec['name'], columns=random_rec['name'])
for i in range(len(table_near)):
    for j in range(len(table_near.iloc[i])):
        table_near.iloc[i][j] = 1 - distance.cosine(tvarray[i], tvarray[j])
table_near

name,strawberry dessert,baked chicken katsu,fresh pumpkin dip,feta olive and tomato dip,chocolate french toast
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
strawberry dessert,1.0,0.0788522,0.182369,0.0978326,0.0466804
baked chicken katsu,0.0788522,1.0,0.0678356,0.117861,0.0945944
fresh pumpkin dip,0.182369,0.0678356,1.0,0.142683,0.131491
feta olive and tomato dip,0.0978326,0.117861,0.142683,1.0,0.134002
chocolate french toast,0.0466804,0.0945944,0.131491,0.134002,1.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [130]:
print("Самые похожие рецепты - это те, которые имеют больше одинаковых слов, и их пересечение ближе к 1, чем у других.")
print()
print("Исходя из всего вышеперечисленного, я считаю наиболее похожими словами рецепт <<strawberry dessert>> и <<fresh pumpkin dip>>")

Самые похожие рецепты - это те, которые имеют больше одинаковых слов, и их пересечение ближе к 1, чем у других.

Исходя из всего вышеперечисленного, я считаю наиболее похожими словами рецепт <<strawberry dessert>> и <<fresh pumpkin dip>>
