# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [50]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
import re
from nltk.metrics.distance import (
    edit_distance,
    edit_distance_align,
    binary_distance,
    jaccard_distance,
    masi_distance,
    interval_distance,
    custom_distance,
    presence,
    fractional_presence,
)
from razdel import sentenize
from razdel import tokenize
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import (CountVectorizer, TfidfVectorizer)
import csv
import pandas as pd
from nltk import word_tokenize
from nltk import sent_tokenize
import numpy as np
from nltk.probability import FreqDist
import random
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
from scipy.spatial import distance
import nltk
import itertools

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [74]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [75]:
with open('litw-win.txt', 'r') as f:
    data = [''.join(line.split()[1]).strip() for line in f]
data

['и',
 'в',
 'я',
 'с',
 'а',
 'к',
 'у',
 'о',
 'н',
 'п',
 'ж',
 'б',
 'т',
 'д',
 'м',
 'ч',
 'з',
 'г',
 'е',
 'р',
 'э',
 'л',
 'х',
 'ш',
 'ф',
 'ц',
 'щ',
 'й',
 'ю',
 'ы',
 'ъ',
 'ь',
 'не',
 'на',
 'он',
 'то',
 'но',
 'же',
 'вы',
 'по',
 'да',
 'за',
 'бы',
 'ты',
 'от',
 'из',
 'ее',
 'до',
 'ну',
 'ни',
 'ли',
 'уж',
 'во',
 'их',
 'мы',
 'со',
 'ей',
 'об',
 'ко',
 'ах',
 'им',
 'ка',
 'та',
 'пр',
 'те',
 'чт',
 'ту',
 'го',
 'де',
 'вс',
 'эт',
 'мо',
 'ра',
 'ст',
 'ха',
 'хе',
 'ум',
 'се',
 'эх',
 'гм',
 'ме',
 'св',
 'ль',
 'ег',
 'пе',
 'ва',
 'са',
 'ве',
 'ох',
 'бо',
 'хо',
 'че',
 'сл',
 'од',
 'бе',
 'мн',
 'ай',
 'ею',
 'ос',
 'ск',
 'ви',
 'ми',
 'ма',
 'сп',
 'ба',
 'ес',
 'бу',
 'гл',
 'що',
 'эй',
 'ем',
 'кр',
 'см',
 'др',
 'лю',
 'па',
 'ро',
 'зн',
 'ле',
 'як',
 'тр',
 'жи',
 'ел',
 'ус',
 'фу',
 'дв',
 'ру',
 'ал',
 'ой',
 'си',
 'ду',
 'вз',
 'ещ',
 'хи',
 'чи',
 'вд',
 'ил',
 'ух',
 'ча',
 'гр',
 'пи',
 'бл',
 'ре',
 'су',
 'ге',
 'ку',
 'оп',
 'ж

In [76]:
text2 = []
for i in text.split():
    word = i
    if word.lower() not in data:
        for s in data:
            if edit_distance(i, s, substitution_cost=2) < float('inf'):
                dist = edit_distance(i, s, substitution_cost=2)
                word = s
    text2.append(word)

In [77]:
' '.join(text2)

'с уменьшившейся усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшившейся вдвое поехал на звуки выстрелов русских орудий'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [78]:
sent = list(sentenize('Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'))
text3 = []
for i in sent:
    text3.append(i.text)
text3

['Считайте слова из файла litw-win.txt и запишите их в список words.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.']

In [79]:
trans = CountVectorizer().fit_transform(text3)
r = trans.toarray()
r

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]], dtype=int64)

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [123]:
description = pd.read_csv('preprocessed_descriptions.csv')
description

Unnamed: 0,name,preprocessed_descriptions
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,these were so go it surprised even me
3,italian gut busters,my sisterinlaw made these for us at a family g...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought ...
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,zydeco soup,this is a delicious soup that i originally fou...


In [125]:
description.preprocessed_descriptions

0        an original recipe created by chef scott meska...
1        my children and their friends ask for my homem...
2                    these were so go it surprised even me
3        my sisterinlaw made these for us at a family g...
4        i think a fondue is a very romantic casual din...
                               ...                        
29995    this is based on a french recipe but i changed...
29996    this is a traditional fresh plum cake thought ...
29997    this is a traditional late summer early fall s...
29998    this is a delicious soup that i originally fou...
29999    ive heard of the cookies by design company but...
Name: preprocessed_descriptions, Length: 30000, dtype: object

In [126]:
words = []
w = re.compile('^[a-z]*$')
for d in description.preprocessed_descriptions:
    words.extend([t.lower() for t in word_tokenize(str(d)) if w.search(t)])
words

['an',
 'original',
 'recipe',
 'created',
 'by',
 'chef',
 'scott',
 'meskan',
 'georges',
 'at',
 'the',
 'cove',
 'we',
 'enjoyed',
 'this',
 'when',
 'we',
 'visited',
 'this',
 'restaurant',
 'in',
 'la',
 'jolla',
 'california',
 'this',
 'recipe',
 'is',
 'requested',
 'so',
 'often',
 'they',
 'have',
 'it',
 'printed',
 'and',
 'ready',
 'at',
 'the',
 'hostess',
 'stand',
 'its',
 'unbeatable',
 'at',
 'the',
 'restaurant',
 'but',
 'i',
 'do',
 'a',
 'pretty',
 'good',
 'job',
 'at',
 'home',
 'too',
 'if',
 'i',
 'do',
 'say',
 'so',
 'myself',
 'my',
 'children',
 'and',
 'their',
 'friends',
 'ask',
 'for',
 'my',
 'homemade',
 'popsicles',
 'morning',
 'noon',
 'and',
 'night',
 'i',
 'never',
 'turn',
 'them',
 'down',
 'who',
 'am',
 'i',
 'to',
 'tell',
 'them',
 'that',
 'they',
 'are',
 'good',
 'for',
 'them',
 'for',
 'variety',
 'i',
 'substitute',
 'different',
 'flavours',
 'of',
 'frozen',
 'juice',
 'grape',
 'fruit',
 'punch',
 'tropical',
 'etc',
 'these',


In [88]:
FD = FreqDist(words)
FD

FreqDist({'the': 40072, 'a': 34951, 'and': 30245, 'this': 26859, 'i': 24836, 'to': 23471, 'is': 20285, 'it': 19756, 'of': 18364, 'for': 15939, ...})

In [83]:
a = len(set(words))
a

30743

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [84]:
n_words = random.sample(words, 5)
n_words

['my', 'but', 'bon', 'candies', 'topped']

In [85]:
p = list(itertools.product(range(5), range(5)))
for i in p:
    print(f'{n_words[i[0]]} => {n_words[i[1]]}: {edit_distance(n_words[i[0]], n_words[i[1]], substitution_cost=2)}')

my => my: 0
my => but: 5
my => bon: 5
my => candies: 9
my => topped: 8
but => my: 5
but => but: 0
but => bon: 4
but => candies: 10
but => topped: 7
bon => my: 5
bon => but: 4
bon => bon: 0
bon => candies: 8
bon => topped: 7
candies => my: 9
candies => but: 10
candies => bon: 8
candies => candies: 0
candies => topped: 11
topped => my: 8
topped => but: 7
topped => bon: 7
topped => candies: 11
topped => topped: 0


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [99]:
SBS = SnowballStemmer('english')
WNL = WordNetLemmatizer()

tb1 = [SBS.stem(i) for i in list(FD)]
tb2 = [WNL.lemmatize(i) for i in list(FD)]
df = pd.DataFrame([list(FD), tb1, tb2], index=['word', 'stemmed_word', 'normalized_word'])
df = df.transpose()
df

Unnamed: 0,word,stemmed_word,normalized_word
0,the,the,the
1,a,a,a
2,and,and,and
3,this,this,this
4,i,i,i
...,...,...,...
30738,substantially,substanti,substantially
30739,mixedgreens,mixedgreen,mixedgreens
30740,augsburg,augsburg,augsburg
30741,consensus,consensus,consensus


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [118]:
stop = stopwords.words('english')
stop

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [120]:
FD_modified = FreqDist([i for i in words if i not in stop])
FD_modified

FreqDist({'recipe': 14871, 'make': 6326, 'time': 5137, 'use': 4620, 'great': 4430, 'like': 4167, 'easy': 4152, 'one': 3872, 'made': 3810, 'good': 3791, ...})

In [121]:
FD.most_common(10), FD_modified.most_common(10)

([('the', 40072),
  ('a', 34951),
  ('and', 30245),
  ('this', 26859),
  ('i', 24836),
  ('to', 23471),
  ('is', 20285),
  ('it', 19756),
  ('of', 18364),
  ('for', 15939)],
 [('recipe', 14871),
  ('make', 6326),
  ('time', 5137),
  ('use', 4620),
  ('great', 4430),
  ('like', 4167),
  ('easy', 4152),
  ('one', 3872),
  ('made', 3810),
  ('good', 3791)])

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [156]:
rnd = description.sample(5)
rnd

Unnamed: 0,name,preprocessed_descriptions
8466,crisp eggplant aubergine chips,found this in gourmets 50th anniversary additi...
21916,quick chicken tortilla soup,quick easy and tasty
1020,apples with kahlua dip,this was an entry in rsc 10
4656,caramel iced coffee at home,i made this up cuz im in england with no mcdon...
1336,atkin induction friendly crustless quiche,this is a great recipe anytime but is perfect ...


In [157]:
preprocessed_descriptions = list(i for i in rnd.preprocessed_descriptions)
preprocessed_descriptions

['found this in gourmets 50th anniversary addition september 2006  i love chips made from veggies other than potatoes they are always a surprising treat  havent made these yet but i can just tell that theyll be great',
 'quick easy and tasty',
 'this was an entry in rsc 10',
 'i made this up cuz im in england with no mcdonalds and i am addicted to their iced coffee',
 'this is a great recipe anytime but is perfect for induction on the atkins diet  i like the crust that forms on the outside so i do use muffin tins instead of a pie shell']

In [166]:
TVectorizer = TfidfVectorizer(tokenizer=word_tokenize)
FTrans = TVectorizer.fit_transform(preprocessed_descriptions)
r = np.array(FTrans.todense())
r

array([[0.        , 0.16959558, 0.16959558, 0.13682865, 0.        ,
        0.16959558, 0.16959558, 0.        , 0.        , 0.        ,
        0.16959558, 0.        , 0.16959558, 0.        , 0.16959558,
        0.13682865, 0.16959558, 0.16959558, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.16959558, 0.16959558,
        0.16959558, 0.13682865, 0.16959558, 0.22716028, 0.        ,
        0.        , 0.11358014, 0.        , 0.        , 0.        ,
        0.16959558, 0.        , 0.16959558, 0.2736573 , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.16959558,
        0.        , 0.        , 0.        , 0.16959558, 0.        ,
        0.        , 0.        , 0.16959558, 0.        , 0.        ,
        0.16959558, 0.        , 0.16959558, 0.16959558, 0.13682865,
        0.        , 0.        , 0.16959558, 0.16959558, 0.16959558,
        0.09554719, 0.        , 0.        , 0.16

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [214]:
cos_dist = pd.DataFrame(index=rnd.name, columns=rnd.name)
for i,j in itertools.product(range(len(r)), range(len(r))):
    cos_dist.iloc[i, j] = distance.cosine(r[i], r[j])
cos_dist

name,crisp eggplant aubergine chips,quick chicken tortilla soup,apples with kahlua dip,caramel iced coffee at home,atkin induction friendly crustless quiche
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crisp eggplant aubergine chips,0.0,1.0,0.945905,0.840503,0.862283
quick chicken tortilla soup,1.0,0.0,1.0,0.917039,1.0
apples with kahlua dip,0.945905,1.0,0.0,0.922323,0.979997
caramel iced coffee at home,0.840503,0.917039,0.922323,0.0,0.922188
atkin induction friendly crustless quiche,0.862283,1.0,0.979997,0.922188,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [215]:
cos_dist.replace(0, 1).values.min()

0.8405030422752956

In [223]:
i = np.where(cos_dist == cos_dist.replace(0, 1).values.min())
rnd.name.iloc[i[0][0]], rnd.name.iloc[i[0][1]]

('crisp eggplant  aubergine  chips', 'caramel iced coffee at home')

In [225]:
# Чем меньше косинусное расстояние, тем больше рецепты похожи друг на друга. Если расстояние == 0, то названия рецептов совпадают