# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
!pip install pymorphy2



In [2]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [3]:
data = open("data/litw-win.txt", "r")
words = [line.split()[-1] for line in data]
words[-10:]

['облагодетельствованным',
 'облагодетельствованных',
 'председательствовавший',
 'стадвадцатипятирублевой',
 'высокопревосходительство',
 'высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [4]:
word_test = "уменьшевшейся"
min(words[-10:], key=lambda x: edit_distance(x, word_test))

'уменьшившейся'

In [5]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [6]:
# Стемминг - это удаление окончаний
from nltk.stem import SnowballStemmer
from nltk.tokenize import sent_tokenize, word_tokenize

In [7]:
st = SnowballStemmer('russian')
text1 = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
for sent in sent_tokenize(text1):
    for word in word_tokenize(sent):
        res = st.stem(word)
        print(res)

счита
слов
из
файл
`
litw-win.txt
`
и
запиш
их
в
список
`
words
`
.
в
зада
предложен
исправьт
все
опечатк
,
замен
слов
с
опечатк
на
ближайш
(
в
смысл
расстоян
левенштейн
)
к
ним
слов
из
списк
`
words
`
.
счита
,
что
в
слов
ест
опечатк
,
есл
дан
слов
не
содерж
в
списк
`
words
`
.


In [8]:
# лемматизация - приведение к нормальной форме
mor = pymorphy2.MorphAnalyzer()
norm = []
for word in word_tokenize(text):
    res = mor.parse(word)[0].normalized.word #меняем на самое подходящее 
    norm.append(res)
print(norm)

['с', 'велечайший', 'усилие', 'выбраться', 'из', 'поток', 'убегать', 'человек', 'кутузов', 'с', 'свита', 'уменьшевшийся', 'вдвое', 'поехать', 'на', 'звук', 'выстрел', 'русский', 'орудие']


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [9]:
text_from_task_1 = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
sents = sent_tokenize(text_from_task_1 )
sents

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.']

In [10]:
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]], dtype=int64)

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [11]:
import pandas as pd
from nltk.tokenize import word_tokenize
import nltk

In [12]:
preprocessed_descriptions = pd.read_csv("./data/preprocessed_descriptions.csv")
preprocessed_descriptions

Unnamed: 0,name,preprocessed_descriptions
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,"these were so go, it surprised even me."
3,italian gut busters,my sister-in-law made these for us at a family...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,"this is a traditional fresh plum cake, thought..."
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,zydeco soup,this is a delicious soup that i originally fou...


In [14]:
my_arr = []
for _, row in preprocessed_descriptions.iterrows():
    for w in word_tokenize(str(row[1])):
        my_arr.append(w)
arr = list(set(my_arr))
arr

['fleming',
 'sheet-ful',
 'shell-on',
 'mommie',
 'ok',
 'belgian',
 'drains',
 'cassaroles',
 '340658.',
 'doughnuts',
 'seal-a-meal',
 'refreshment',
 'decendants',
 'medium-size',
 'haven',
 'linked',
 '24-40',
 'differences',
 'blan',
 'orgeat',
 'hellman',
 'viola',
 'boredom',
 'neeeded',
 'collier',
 'accustomed',
 '185162',
 'antiseptic',
 'heartbreaking',
 'thirds',
 '160',
 'waxed',
 '231798',
 'russia',
 '7020',
 "'plain",
 'cane',
 'piccolini',
 'guidline',
 'mates',
 'note-',
 '94857.',
 'velveta',
 'chuckles',
 'skeptical',
 'irony',
 '63',
 'stir-frying',
 'loveit',
 "'real",
 '//www.insanitytheory.net',
 'mommom',
 'presbyterian',
 'commando',
 'dessicated',
 'inoculate',
 "'bait",
 'pretzels',
 'liquore',
 'lanka',
 'triumph',
 'crunchy/savory',
 'rita',
 'bakeorbreak.com',
 'yogurts',
 'stamp',
 '-from',
 'tempt',
 'pink—adds',
 'kabbielow',
 'caller',
 'starter',
 'food52.com',
 'timings',
 'funny-looking',
 'paternal',
 'iris',
 'parsons',
 'cheesy-herb',
 'durham'

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [18]:
import random

def getRandomSample(num):
    return random.sample(arr, num)

pair1 = getRandomSample(5)
pair2 = getRandomSample(5)

print(pair1)
print(pair2)

['watt', 'zipper', 'inherent', 'mahe', 'corriher']
['ravioli', 'kiev-style', 'ignoring', 'poc', 'stage']


In [19]:
for i in range(len(pair1)):
    print(edit_distance(pair1[i], pair2[i]))

6
9
5
4
7


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [20]:
def findWordsForWord(word, words, k):
    for_words = {}
    for x in words:
        dist = edit_distance(x, word) #расстояние редактирования между требуемым словом и словом из списка
        for_words[x] = dist
    for_words = dict(sorted(for_words.items(), key=lambda x: x[1])[:k]) #сортируем словарь и показываем первые k элементов       
    return [key for key in for_words.keys()]

In [21]:
a = findWordsForWord("flavorsome", arr, 6) 
print(a)

['flavorsome', 'flavoursome', 'flavors.a', 'flavorable', 'flavors.the', 'flavors']


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для лемматизации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [22]:
st = SnowballStemmer('english')
stemmed_word = []
normalized_words = []
mor2 = pymorphy2.MorphAnalyzer()
for elem in arr:
    res = st.stem(elem) #отрезаем окончание
    stemmed_word.append(res) 
    res2 = mor2.parse(elem)[0].normalized.word #приведение к нормальной форме
    normalized_words.append(res2)


my_df = pd.DataFrame({'word' : arr,'stemmed_word' : stemmed_word,'normalized_word' : normalized_words,}).set_index('word')
my_df

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
fleming,fleme,fleming
sheet-ful,sheet-,sheet-ful
shell-on,shell-on,shell-on
mommie,mommi,mommie
ok,ok,ok
...,...,...
spawned,spawn,spawned
matthew,matthew,matthew
recipe-they,recipe-they,recipe-they
al-dente,al-dent,al-dente


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [23]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mpapa\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [27]:
from nltk.corpus import stopwords
import re
words_stops_eng = set(stopwords.words("english"))
print("Stop words: \n", words_stops_eng)

Stop words: 
 {"she's", 'did', 'shan', 'are', 'such', 'about', 'some', 'll', 'mightn', 'wouldn', 'here', 'own', 'haven', 'before', "should've", "you'll", 'a', 'only', 'couldn', 'with', 'it', 've', 'an', 'they', 're', 'is', 'o', 's', 'isn', 'out', 'further', 'same', 'doesn', 'on', 'their', 'been', 'having', 'had', 'shouldn', 'be', 'because', "that'll", "wouldn't", 'what', 'if', 'there', "shouldn't", 'into', 'where', 'as', 'themselves', 'the', "mustn't", 'i', 'her', 'didn', 'am', "weren't", 'hadn', 'until', 'will', 'being', 'just', "doesn't", 'under', "shan't", 'nor', 'in', 'more', 'those', 'against', 'myself', 'both', 'have', 'to', 'so', 'has', 'or', 'after', 'doing', 'and', "mightn't", 'can', "hadn't", 'this', 'which', "didn't", 'theirs', "it's", 'hers', 'me', 'once', "haven't", 'weren', 'by', 'we', 'aren', "wasn't", 'won', 'herself', 'no', 'again', 'don', 'my', "you've", "needn't", 'does', 'when', "isn't", 't', 'at', 'than', 'needn', "you'd", 'she', "won't", 'during', 'ours', 'now', '

In [28]:
w_regex = re.compile('^[a-zA-Z]*$')

words_all = []
for elem in preprocessed_descriptions["preprocessed_descriptions"]:
    for sent in sent_tokenize(str(elem)):
        for w in word_tokenize(sent):
            if w_regex.search(w): #удаляем символы кроме букв
                words_all.append(w)

words_all

['an',
 'original',
 'recipe',
 'created',
 'by',
 'chef',
 'scott',
 'meskan',
 'george',
 'at',
 'the',
 'cove',
 'we',
 'enjoyed',
 'this',
 'when',
 'we',
 'visited',
 'this',
 'restaurant',
 'in',
 'la',
 'jolla',
 'california',
 'this',
 'recipe',
 'is',
 'requested',
 'so',
 'often',
 'they',
 'have',
 'it',
 'printed',
 'and',
 'ready',
 'at',
 'the',
 'hostess',
 'stand',
 'it',
 'unbeatable',
 'at',
 'the',
 'restaurant',
 'but',
 'i',
 'do',
 'a',
 'pretty',
 'good',
 'job',
 'at',
 'home',
 'too',
 'if',
 'i',
 'do',
 'say',
 'so',
 'myself',
 'my',
 'children',
 'and',
 'their',
 'friends',
 'ask',
 'for',
 'my',
 'homemade',
 'popsicles',
 'morning',
 'noon',
 'and',
 'night',
 'i',
 'never',
 'turn',
 'them',
 'down',
 'who',
 'am',
 'i',
 'to',
 'tell',
 'them',
 'that',
 'they',
 'are',
 'good',
 'for',
 'them',
 'for',
 'variety',
 'i',
 'substitute',
 'different',
 'flavours',
 'of',
 'frozen',
 'juice',
 'grape',
 'fruit',
 'punch',
 'tropical',
 'etc',
 'these',
 '

In [31]:
from nltk.probability import FreqDist
fdist = FreqDist(words_all)

print("Топ-10 слов до удаления стоп-слов")
print(fdist.most_common(10))

Топ-10 слов до удаления стоп-слов
[('the', 40257), ('a', 35030), ('and', 30425), ('i', 27799), ('this', 27132), ('to', 23508), ('it', 23212), ('is', 20501), ('of', 18379), ('for', 15996)]


In [36]:
words_no_stop = [w for w in words_all if w not in words_stops_eng] #без стоп слов
words_no_stop

['original',
 'recipe',
 'created',
 'chef',
 'scott',
 'meskan',
 'george',
 'cove',
 'enjoyed',
 'visited',
 'restaurant',
 'la',
 'jolla',
 'california',
 'recipe',
 'requested',
 'often',
 'printed',
 'ready',
 'hostess',
 'stand',
 'unbeatable',
 'restaurant',
 'pretty',
 'good',
 'job',
 'home',
 'say',
 'children',
 'friends',
 'ask',
 'homemade',
 'popsicles',
 'morning',
 'noon',
 'night',
 'never',
 'turn',
 'tell',
 'good',
 'variety',
 'substitute',
 'different',
 'flavours',
 'frozen',
 'juice',
 'grape',
 'fruit',
 'punch',
 'tropical',
 'etc',
 'go',
 'surprised',
 'even',
 'made',
 'us',
 'family',
 'get',
 'together',
 'delicious',
 'little',
 'messy',
 'make',
 'worth',
 'effort',
 'helper',
 'make',
 'think',
 'fondue',
 'romantic',
 'casual',
 'dinner',
 'wonderful',
 'theatre',
 'snack',
 'served',
 'robust',
 'red',
 'wine',
 'dinner',
 'serve',
 'rice',
 'small',
 'salad',
 'almond',
 'rice',
 'pilaf',
 'great',
 'accompaniment',
 'recipe',
 'posted',
 'separatel

In [37]:
fdist2 = FreqDist(words_no_stop)

print("Топ-10 после удаления стоп-слов")
print(fdist2.most_common(10))

Топ-10 после удаления стоп-слов
[('recipe', 15122), ('make', 6367), ('time', 5198), ('use', 4645), ('great', 4473), ('easy', 4206), ('like', 4186), ('one', 3916), ('good', 3847), ('made', 3819)]


In [38]:
print("Доля стоп слов = ", (len(words_all) - len(words_no_stop)) / len(words_all))

Доля стоп слов =  0.47381100116993413


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [43]:
random_rec = preprocessed_descriptions.sample(5)
random_rec

Unnamed: 0,name,preprocessed_descriptions
6185,chile chicken slow cooked tacos,i have made this recipe several times for part...
18993,oatmeal lace cookies havrekniplekaker,i found this delicious recipe late one evening...
17158,mashed garlic onion potatoes,garlic lovers unite! this is a really tasty wa...
5199,cheesehead cream of broccoli soup,"in wisconsin, america's dairyland, nearly ever..."
1377,aunt linda s refrigerator pickles,this is a recipe that i grew up with my mom ma...


In [44]:
sentences = [item for item in random_rec["preprocessed_descriptions"].to_list()]
sentences

['i have made this recipe several times for parties and it is always greeted with rave reviews.  since it is made in the crockpot, it is easy to put together in the morning and forget until serving time.',
 "i found this delicious recipe late one evening when my daughter informed she needed to bring a norwegian food item for a heritage day pot-luck at her school the next day! i had all the ingredients and the cooking time is so short so this is the one i made for her. i'm so glad i did, these turned out to be very delicious and quite different from 'normal' cookies. the recipe is from authentic norwegian cooking by astrid karlsen scott.",
 'garlic lovers unite! this is a really tasty way to serve potatoes but you have to like garlic and onions.',
 "in wisconsin, america's dairyland, nearly everything tastes better with cheese.  this creamy, rich broccoli soup is perfect fare for a winter weekend.  serve with warm, crusty bread or crispy croutons.  yum!",
 "this is a recipe that i grew 

In [46]:
from sklearn.feature_extraction.text import TfidfVectorizer
tv = TfidfVectorizer()
fit_tr = tv.fit_transform(sentences)
tvarray = fit_tr.toarray()
tvarray

array([[0.        , 0.17101035, 0.        , 0.        , 0.22905525,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.17101035, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.17101035, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.09634425, 0.        , 0.17101035, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.17101035, 0.        , 0.        , 0.11452762,
        0.        , 0.        , 0.        , 0.        , 0.22905525,
        0.        , 0.        , 0.        , 0.24446204, 0.41391022,
        0.        , 0.        , 0.        , 0.  

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [48]:
from scipy.spatial import distance
table_near = pd.DataFrame(index=random_rec['name'], columns=random_rec['name'])
table_near

name,chile chicken slow cooked tacos,oatmeal lace cookies havrekniplekaker,mashed garlic onion potatoes,cheesehead cream of broccoli soup,aunt linda s refrigerator pickles
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
chile chicken slow cooked tacos,,,,,
oatmeal lace cookies havrekniplekaker,,,,,
mashed garlic onion potatoes,,,,,
cheesehead cream of broccoli soup,,,,,
aunt linda s refrigerator pickles,,,,,


In [58]:
for i in range(5):
    for j in range(5):
        table_near.iloc[i][j] = 1 - distance.cosine(tvarray[i], tvarray[j])
table_near

name,chile chicken slow cooked tacos,oatmeal lace cookies havrekniplekaker,mashed garlic onion potatoes,cheesehead cream of broccoli soup,aunt linda s refrigerator pickles
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
chile chicken slow cooked tacos,1.0,0.225643,0.121338,0.100003,0.295142
oatmeal lace cookies havrekniplekaker,0.225643,1.0,0.0843077,0.0356313,0.212861
mashed garlic onion potatoes,0.121338,0.0843077,1.0,0.052565,0.115343
cheesehead cream of broccoli soup,0.100003,0.0356313,0.052565,1.0,0.0601165
aunt linda s refrigerator pickles,0.295142,0.212861,0.115343,0.0601165,1.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

Самые похожие рецепты - "aunt linda s refrigerator pickles" и "chile chicken slow cooked tacos".
<br>Они наиболее близки к 1.
