# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [4]:
#from sklearn.feature_extraction.text import CountVectorizer
#import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [5]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [6]:
import nltk
import pandas as pd
import numpy as np

In [7]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [8]:
data = pd.read_csv('data\\preprocessed_descriptions.csv')
res = ''
for i in data['preprocessed_descriptions'][data['preprocessed_descriptions'].isna() == False]:
    res += i

In [9]:
uni_words = np.array(list(set(nltk.word_tokenize(res))))
uni_words

array(['alvarez', 'guthrie', '2009this', ..., 'comanother', 'apricot',
       'gratinhaven'], dtype='<U30')

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [10]:
pairs = [(np.random.choice(uni_words), np.random.choice(uni_words)) for _ in range(5)]
pairs

[('siamese', 'color'),
 ('teddy', 'frequently'),
 ('mineral', '400ml'),
 ('mancini', 'gloves'),
 ('sur', 'wayyy')]

In [11]:
nltk.edit_distance(pairs[0][0], pairs[0][1]), nltk.edit_distance(pairs[1][0], pairs[1][1]), nltk.edit_distance(pairs[2][0], pairs[2][1]), nltk.edit_distance(pairs[3][0], pairs[3][1]), nltk.edit_distance(pairs[4][0], pairs[4][1])

(7, 8, 6, 7, 5)

1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [12]:
def word_e_distance(word, k):
    mn = 1
    res = []
    while True:
        for i in uni_words:
            if nltk.edit_distance(word, i) == mn:
                res.append(i)
            if len(res) == k:
                return res
        mn += 1

word_e_distance('slotted', 10)

['clotted',
 'blotted',
 'spotted',
 'bloated',
 'potted',
 'shouted',
 'jotted',
 'sorted',
 'dotted',
 'allotted']

In [13]:
word_e_distance('grape', 10)

['grade',
 'grate',
 'grapes',
 'grace',
 'grave',
 'gale',
 'gravy',
 'craze',
 'grams',
 'gate']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [14]:
df_2_1 = pd.DataFrame({'word':uni_words})
df_2_1

Unnamed: 0,word
0,alvarez
1,guthrie
2,2009this
3,utah
4,robust
...,...
23885,hopeful
23886,recpie
23887,comanother
23888,apricot


In [15]:
stemmer = nltk.stem.SnowballStemmer('english')
df_2_1['stemmed_word'] = df_2_1['word'].apply(lambda x: stemmer.stem(x))

lemmer = nltk.WordNetLemmatizer()
df_2_1['normalized_word'] = df_2_1['word'].apply(lambda x: lemmer.lemmatize(x))
                                                 
df_2_1.iloc[56]

word               257241
stemmed_word       257241
normalized_word    257241
Name: 56, dtype: object

In [16]:
df_2_1.iloc[151:200]

Unnamed: 0,word,stemmed_word,normalized_word
151,pit,pit,pit
152,fussed,fuss,fussed
153,jackie,jacki,jackie
154,care,care,care
155,laguna2001,laguna2001,laguna2001
156,stoppingly,stop,stoppingly
157,mulit,mulit,mulit
158,acelgas,acelga,acelgas
159,zwteven,zwteven,zwteven
160,ovenproof,ovenproof,ovenproof


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [17]:
words = pd.DataFrame({'words': np.array(nltk.word_tokenize(res))})
words

Unnamed: 0,words
0,an
1,original
2,recipe
3,created
4,by
...,...
941422,supposed
941423,to
941424,be
941425,like


In [36]:
most_used = words.groupby('words')['words'].count()
most_used = most_used.sort_values(ascending=False)
most_used

words
the         33778
a           30457
and         26216
i           23747
this        23451
            ...  
jadhav          1
jaffles         1
jaffreys        1
jagged          1
zzar            1
Name: words, Length: 23890, dtype: int64

In [51]:
stop_words = set(nltk.corpus.stopwords.words('english'))
cln_words = pd.DataFrame({'words': most_used.index, 'n_used': most_used.values})

In [52]:
cln_words = cln_words[cln_words['words'].isin(stop_words) == False]
cln_words

Unnamed: 0,words,n_used
10,recipe,13210
20,make,5540
27,time,4525
30,great,4035
31,use,3876
...,...,...
23885,jadhav,1
23886,jaffles,1
23887,jaffreys,1
23888,jagged,1


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [90]:
data_smpl = data['preprocessed_descriptions'].sample(5)
data_smpl

32385    this is a great dressing to serve over greens ...
9921     a simple  but elegant chicken salad   kids lik...
13269    a really good traditional mennonite dish  eat ...
10554    an easy breakfast or brunch dish that can be p...
28482             a simple recipe for cajun flavored nuts 
Name: preprocessed_descriptions, dtype: object

In [103]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
corpus_tv = vectorizer.fit_transform(data_smpl)
corpus_tv.toarray()

array([[0.25036997, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.20199692, 0.        , 0.        , 0.        , 0.25036997,
        0.        , 0.        , 0.        , 0.        , 0.25036997,
        0.        , 0.        , 0.25036997, 0.25036997, 0.        ,
        0.25036997, 0.25036997, 0.25036997, 0.25036997, 0.        ,
        0.        , 0.        , 0.        , 0.25036997, 0.        ,
        0.        , 0.        , 0.25036997, 0.        , 0.        ,
        0.        , 0.20199692, 0.25036997, 0.        , 0.        ,
        0.20199692, 0.        , 0.25036997, 0.25036997, 0.        ,
        0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.35460217, 0.        , 0.        ,
        0.28609079, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.35460217, 0.        ,
   

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [116]:
import scipy

In [118]:
scipy.spatial.distance.cosine(corpus_tv.toarray()[0], corpus_tv.toarray()[1])

0.8844210823417489

In [120]:
scipy.spatial.distance.cosine(corpus_tv.toarray()[2], corpus_tv.toarray()[1])

1.0

In [121]:
scipy.spatial.distance.cosine(corpus_tv.toarray()[2], corpus_tv.toarray()[3])

0.8465316592481439

In [122]:
scipy.spatial.distance.cosine(corpus_tv.toarray()[4], corpus_tv.toarray()[1])

0.9029027445476215

In [155]:
res_3_2 = pd.DataFrame({1:[scipy.spatial.distance.cosine(corpus_tv.toarray()[0], corpus_tv.toarray()[0]), scipy.spatial.distance.cosine(corpus_tv.toarray()[0], corpus_tv.toarray()[1]),
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[0], corpus_tv.toarray()[2]), scipy.spatial.distance.cosine(corpus_tv.toarray()[0], corpus_tv.toarray()[3]), 
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[0], corpus_tv.toarray()[4])], 2:[scipy.spatial.distance.cosine(corpus_tv.toarray()[1], corpus_tv.toarray()[0]), 
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[1], corpus_tv.toarray()[1]),
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[1], corpus_tv.toarray()[2]), scipy.spatial.distance.cosine(corpus_tv.toarray()[1], corpus_tv.toarray()[3]), 
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[1], corpus_tv.toarray()[4])], 3:[scipy.spatial.distance.cosine(corpus_tv.toarray()[2], corpus_tv.toarray()[0]), 
                           scipy.spatial.distance.cosine(corpus_tv.toarray()[2], corpus_tv.toarray()[1]),
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[2], corpus_tv.toarray()[2]), scipy.spatial.distance.cosine(corpus_tv.toarray()[2], corpus_tv.toarray()[3]), 
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[2], corpus_tv.toarray()[4])], 4:[scipy.spatial.distance.cosine(corpus_tv.toarray()[3], corpus_tv.toarray()[0]), 
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[3], corpus_tv.toarray()[1]),
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[3], corpus_tv.toarray()[2]), scipy.spatial.distance.cosine(corpus_tv.toarray()[3], corpus_tv.toarray()[3]), 
                            scipy.spatial.distance.cosine(corpus_tv.toarray()[3], corpus_tv.toarray()[4])]}, index=[1, 2, 3, 4, 5])

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [156]:
res_3_2

Unnamed: 0,1,2,3,4
1,0.0,0.884421,1.0,0.952158
2,0.884421,0.0,1.0,1.0
3,1.0,1.0,0.0,0.846532
4,0.952158,1.0,0.846532,0.0
5,1.0,0.902903,1.0,1.0
