# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Предварительные задачи

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance

In [2]:
#!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
Collecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py): started
  Building wheel for docopt (setup.py): finished with status 'done'
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13705 sha256=d18de14d920f37b77effa53265743cfcd11c1fd279c44fe22362c225006c91b5
  Stored in directory: c:\users\olga.khamikoeva\appdata\local\pip\cache\wheels\56\ea\58\ead137b087d9e326852a851351d1debf4ada529b6ac0ec4e8c
Successfully built docopt
Installing collected packages: pymorphy2-dicts-ru, docopt, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 docopt-0.6.2 pymorphy2-0.9.1 pymorphy2-di

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [87]:
s1 = 'ПИ19-3'
s2 = 'ПМ19-3'
edit_distance(s1, s2)

1

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [7]:
word = 'велечайшим'
with open('./data/litw-win.txt') as fp:
    words = [line.strip().split()[-1] for line in fp]
words[-5:]

['высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [8]:
min(words, key=lambda w: edit_distance(w, word))

'величайшим'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [17]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('russian')
word = 'попреблагорассмотрительствующемуся'
stemmer.stem(word)

'попреблагорассмотрительств'

In [22]:
#pymorphy2

morph = pymorphy2.MorphAnalyzer()
morph.parse(word)[0].normalized.word

'попреблагорассмотрительствующийся'

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [31]:
from nltk import sent_tokenize

In [33]:
text = '''Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words'''
sents = sent_tokenize(text)
sents

['Считайте слова из файла litw-win.txt и запишите их в список words.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке words']

In [36]:
cv = CountVectorizer() #в первую очередь мы этой модели должны показать некоторые данные
#CountV. просто возьмет и занумерует все слова
cv.fit(sents)
sent_cv = cv.transform(sents).toarray()
sent_cv
#строки матрицы разбиты по предложениям
#1 значит, что слово с таким индексом присутствует в предложении
#0 означает, что слова с таким индексом не было в предложении
#2 означает, что слово с таким индексом встречалось два раза


array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]], dtype=int64)

In [37]:
sent_cv.shape

(3, 35)

In [38]:
cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

In [2]:
import pandas as pd
import nltk
import random
import copy
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
import numpy as np
from nltk.tokenize import RegexpTokenizer
from nltk.probability import FreqDist
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [3]:
descrip = pd.read_csv("./data/preprocessed_descriptions.csv")
words = []
for i in descrip["preprocessed_descriptions"]:
    words_i = nltk.word_tokenize(str(i))
    for j in words_i:
        words.append(j)
words = list(set(words))
words

['blanchard',
 'southern',
 'mirassou',
 'seasonwhich',
 'correctit',
 'pleasureinduced',
 'morsel',
 'muchim',
 'elecrtic',
 'citrusonly',
 '26877',
 'berriesraspberries',
 'ruta',
 'housewe',
 'torgotta',
 'presidents',
 'episode',
 'onepot',
 'simmerman',
 'reader',
 'garces',
 'wrongnote',
 'chai',
 '43044',
 'tequila',
 'awesome',
 'neighboring',
 'sucks',
 'veggis',
 'wonderfulupdate',
 'sincethey',
 'nickey',
 'appley',
 'potine',
 'elise',
 'eachto',
 'milkbuttermilk',
 'neverfail',
 'ruled',
 'garota',
 'dommmmmmmmm',
 'sat',
 'smooth',
 'cosmo',
 'vacation',
 'christine',
 'ramekin',
 'solved',
 'mincemeatmy',
 'goodthese',
 'tubebag',
 'trove',
 'mealnotes',
 'garlicky',
 'pepitas',
 'ingredientsin',
 'partysquick',
 'crooning',
 'gfree',
 'achievement',
 'driveinnplate',
 'winelemonrosemary',
 'sharing',
 'wwwtarladalalcom',
 'breeze',
 'tsos',
 'broken',
 'deliciouslycreamy',
 'crunchydone',
 'journalconstitution',
 'francethiswaycom',
 'rightit',
 'adusted',
 'starspangle

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [76]:
exmpls = []
for i in range(5):
    pair = []
    r_ind = random.randint(0, len(words)-1)
    pair.append(words[r_ind])
    r_ind = random.randint(0, len(words)-1)
    pair.append(words[r_ind])
    exmpls.append(pair)
print(exmpls)

[['mugs', 'soupsatisfying'], ['morericeier', 'slices'], ['washcloth', 'carful'], ['wedges', 'cupfull'], ['recipelol', 'zaarian']]


In [88]:
for i in exmpls:
    print(f'Разница между словами "{i[0]}" и "{i[1]}" равна {edit_distance(i[0], i[1])}')

Разница между словами "mugs" и "soupsatisfying" равна 12
Разница между словами "morericeier" и "slices" равна 8
Разница между словами "washcloth" и "carful" равна 7
Разница между словами "wedges" и "cupfull" равна 7
Разница между словами "recipelol" и "zaarian" равна 9


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [119]:
def Levenstein_for_k(words, word, k):
    examps = []
    w_dist = {}
    for i in words:
        w_dist[i] = edit_distance(i, word)
    all_w = copy.deepcopy(w_dist)
    w_dist.pop(word)
    while len(examps) < k:
        min_len = min(w_dist, key=w_dist.get)
        if min_len not in examps:
            examps.append(min_len)
            w_dist.pop(min_len)
    print(f'{k} наиболее близких слов к слову {word}:\n{examps}')
    #print('Все слова: ', all_w) 
word = words[random.randint(0, len(words)-1)]
Levenstein_for_k(words, word, 3)

3 наиболее близких слов к слову tajine:
['tagine', 'taint', 'tahini']


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для лемматизации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [124]:
df_2_1 = pd.DataFrame(columns = ['word', 'stemmed_word', 'normalized_word'])
df_2_1['word'] = words
df_2_1.set_index('word')
df_2_1

Unnamed: 0,word,stemmed_word,normalized_word
0,script,,
1,packetthe,,
2,milkallergic,,
3,kinde,,
4,ways,,
...,...,...,...
32863,overcooked,,
32864,tipskaffir,,
32865,prizewinning,,
32866,gd,,


In [126]:
stemmer = SnowballStemmer('english')
stemm_w = []
for word in df_2_1['word']:
    stemm_w.append(stemmer.stem(word))
df_2_1['stemmed_word'] = stemm_w
df_2_1

Unnamed: 0,word,stemmed_word,normalized_word
0,script,script,
1,packetthe,packetth,
2,milkallergic,milkallerg,
3,kinde,kind,
4,ways,way,
...,...,...,...
32863,overcooked,overcook,
32864,tipskaffir,tipskaffir,
32865,prizewinning,prizewin,
32866,gd,gd,


In [132]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\olga.khamikoeva\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [133]:
wnl = WordNetLemmatizer()
wnl_list = []
for word in df_2_1['word']:
    new_w = wnl.lemmatize(word)
    wnl_list.append(new_w)
df_2_1['normalized_word'] = wnl_list
df_2_1

Unnamed: 0,word,stemmed_word,normalized_word
0,script,script,script
1,packetthe,packetth,packetthe
2,milkallergic,milkallerg,milkallergic
3,kinde,kind,kinde
4,ways,way,way
...,...,...,...
32863,overcooked,overcook,overcooked
32864,tipskaffir,tipskaffir,tipskaffir
32865,prizewinning,prizewin,prizewinning
32866,gd,gd,gd


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [135]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\olga.khamikoeva\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [3]:
df_2_2 = pd.DataFrame(columns = ['name', 'description', 'new_description'])
df_2_2['name'] = descrip['name']
df_2_2['description'] = descrip['preprocessed_descriptions']
df_2_2 = df_2_2[pd.notna(descrip["preprocessed_descriptions"])]

new_desc = []
stop_words = set(stopwords.words('english'))
for desc in df_2_2['description']:
    desc_tokens = nltk.word_tokenize(desc)
    tokens_without_sw = [word for word in desc_tokens if not word in stop_words]
    a = ' '.join(tokens_without_sw)
    new_desc.append(a)
df_2_2['new_description'] = new_desc

df_2_2.reset_index()
df_2_2['ind'] = list(range(0, df_2_2.shape[0]))
df_2_2.set_index('ind', inplace=True)
df_2_2

Unnamed: 0_level_0,name,description,new_description
ind,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,george s at the cove black bean soup,an original recipe created by chef scott meska...,original recipe created chef scott meskan geor...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...,children friends ask homemade popsicles mornin...
2,i can t believe it s spinach,these were so go it surprised even me,go surprised even
3,italian gut busters,my sisterinlaw made these for us at a family g...,sisterinlaw made us family get together delici...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...,think fondue romantic casual dinner wonderful ...
...,...,...,...
29364,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...,based french recipe changed substantially warn...
29365,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought ...,traditional fresh plum cake thought originated...
29366,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...,traditional late summer early fall snack usual...
29367,zydeco soup,this is a delicious soup that i originally fou...,delicious soup originally found better homes g...


In [5]:
tokenizer = RegexpTokenizer(r'\w+')

In [17]:
all_string = []
all_words = []

filt_string = []
filt_words = []

for i in df_2_2["description"].fillna(""):
    all_string.append(i)
all_words = nltk.word_tokenize(''.join(all_string))

for i in df_2_2["new_description"].fillna(""):
    filt_string.append(i)
filt_words = nltk.word_tokenize(''.join(filt_string))

print(f'Доля стоп-слов составляет {round((len(all_words)-len(filt_words))/len(all_words)*100)}%.')

Доля стоп-слов составляет 47%.


In [18]:
fdist1 = FreqDist(all_words)
fdist2 = FreqDist(filt_words)

In [22]:
print('Топ-10 самых часто употребляемых слов до удаления стоп-слов:')
fdist1.most_common(10)

Топ-10 самых часто употребляемых слов до удаления стоп-слов:


[('the', 39495),
 ('a', 32404),
 ('and', 30238),
 ('to', 23421),
 ('i', 21419),
 ('is', 20239),
 ('this', 19292),
 ('it', 18980),
 ('of', 18357),
 ('for', 15772)]

In [23]:
print('Топ-10 самых часто употребляемых слов после удаления стоп-слов:')
fdist2.most_common(10)

Топ-10 самых часто употребляемых слов после удаления стоп-слов:


[('recipe', 12257),
 ('make', 5899),
 ('use', 4451),
 ('time', 4307),
 ('like', 3696),
 ('made', 3469),
 ('great', 3403),
 ('one', 3350),
 ('easy', 3286),
 ('good', 3078)]

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [90]:
recipes = pd.read_csv("./data/preprocessed_descriptions.csv")
rec_5 = recipes.dropna().sample(5)
rec_5

Unnamed: 0.1,Unnamed: 0,name,preprocessed_descriptions
10490,10490,elaine s lasagna,my moms delicious lasagna recipe
21688,21688,pumpkin cupcakes with kahlua cream cheese fros...,i bake these cupcakes every year for halloween...
6191,6191,chile jam chicken,an easy and delicious chicken recipe the chile...
10876,10876,fennel fontina cheese sandwich,i love fennel and fontina a different and tas...
4100,4100,bulls eye salad,i cant come up with a good name for this salad...


In [91]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(analyzer="word", stop_words="english")
vectorizer.fit(rec_5["preprocessed_descriptions"])
vector = []
for i in rec_5["preprocessed_descriptions"]:
    vector.append(vectorizer.transform([i]).toarray())
vector

[array([[0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.39346994, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.58752141, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.58752141,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.39346994, 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0

In [92]:
desc1 = vector[0]
desc2 = vector[1]
desc3 = vector[2]
desc4 = vector[3]
desc5 = vector[4]
print(desc1.shape)
print(desc2.shape)
print(desc3.shape)
print(desc4.shape)
print(desc5.shape)

(1, 75)
(1, 75)
(1, 75)
(1, 75)
(1, 75)


3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [93]:
from scipy.spatial import distance

In [94]:
names = []
for i in rec_5['name']:
    names.append(i)
df_3_1 = pd.DataFrame(columns = [names[0], names[1], names[2], names[3], names[4]])
df_3_1['names'] = names
df_3_1.set_index('names',inplace=True)
df_3_1

Unnamed: 0_level_0,elaine s lasagna,pumpkin cupcakes with kahlua cream cheese frosting,chile jam chicken,fennel fontina cheese sandwich,bulls eye salad
names,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
elaine s lasagna,,,,,
pumpkin cupcakes with kahlua cream cheese frosting,,,,,
chile jam chicken,,,,,
fennel fontina cheese sandwich,,,,,
bulls eye salad,,,,,


In [95]:
for i in range(len(df_3_1)):     
    dist = []
    for j in range(len(df_3_1)):
        dist.append(distance.cosine(vector[i], vector[j]))
    df_3_1[names[i]] = dist
df_3_1

Unnamed: 0_level_0,elaine s lasagna,pumpkin cupcakes with kahlua cream cheese frosting,chile jam chicken,fennel fontina cheese sandwich,bulls eye salad
names,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
elaine s lasagna,0.0,0.936916,0.767671,0.912644,1.0
pumpkin cupcakes with kahlua cream cheese frosting,0.936916,0.0,0.984222,1.0,1.0
chile jam chicken,0.767671,0.984222,0.0,0.85905,1.0
fennel fontina cheese sandwich,0.912644,1.0,0.85905,0.0,1.0
bulls eye salad,1.0,1.0,1.0,1.0,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

Для того, чтобы ответить на этот вопрос, нужно понять некоторые факты:
* 0 означает, что рецепты идентичны
* 1 означает, что рецепты совершенно различны
Таким образом, что чем ближе к 0 значение близости между парой рецептов, тем более похожими они являются.
Рассмотрев внимательно датафрейм, можно сделать вывод, что топ-2 наиболее похожих рецептов:
1. Пара "chile jam chicken" и "elaine s lasagna" (0.767671) (строка 3 столбец 1)
2. Пара "fennel fontina cheese sandwich" и "chile jam chicken" (0.859050) (строка 4 столбец 3)