# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
!pip install pymorphy2



In [2]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [3]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [4]:
with open('litw-win.txt', 'r', encoding = 'cp1251') as f:
    words = [line.split()[-1] for line in f]

In [5]:
!pip install python-Levenshtein



In [6]:
from Levenshtein import distance as lev
from nltk.metrics.distance import edit_distance

In [7]:
edit_distance(text, words)
text

'с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [8]:
text = 'Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'.split()

In [9]:
from nltk.stem import SnowballStemmer
SnowballStemmer.languages
import re
snb_stemmer_ru = SnowballStemmer('russian')

In [10]:
import nltk   # стемминг
ps = SnowballStemmer('russian')
for i in text:
    print(ps.stem(i)) 

счита
слов
из
файл
litw-win.txt
и
запиш
их
в
список
words.
в
зада
предложен
исправьт
все
опечатки,
замен
слов
с
опечатк
на
ближайш
(в
смысл
расстоян
левенштейна)
к
ним
слов
из
списк
words.
считайте,
что
в
слов
ест
опечатка,
есл
дан
слов
не
содерж
в
списк
words.


In [11]:
morph = pymorphy2.MorphAnalyzer()
for i in text:
    print(morph.parse(i)[0].normalized.word)

считать
слово
из
файл
litw-win.txt
и
записать
они
в
список
words.
в
задать
предложение
исправить
всё
опечатки,
заменить
слово
с
опечатка
на
близкий
(в
смысл
расстояние
левенштейна)
к
они
слово
из
список
words.
считайте,
что
в
слово
есть
опечатка,
если
данный
слово
не
содержаться
в
список
words.


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [12]:
import nltk
from nltk.tokenize import sent_tokenize
nltk.download('punkt')
text = 'Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'.split()
cv = CountVectorizer()
# векторизуем корпус:
corpus_cv = cv.fit_transform(text)
corpus_cv
cv.get_feature_names()

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['litw',
 'txt',
 'win',
 'words',
 'ближайшие',
 'все',
 'данное',
 'если',
 'есть',
 'заданном',
 'заменив',
 'запишите',
 'из',
 'исправьте',
 'их',
 'левенштейна',
 'на',
 'не',
 'ним',
 'опечатка',
 'опечатками',
 'опечатки',
 'предложении',
 'расстояния',
 'слова',
 'слове',
 'слово',
 'смысле',
 'содержится',
 'списка',
 'списке',
 'список',
 'считайте',
 'файла',
 'что']

In [13]:
cv_ar = corpus_cv.toarray()
cv_ar

array([[0, 0, 0, ..., 1, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [14]:
import pandas as pd
import numpy as np
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [15]:
df = pd.read_csv('preprocessed_descriptions.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,name,preprocessed_descriptions
0,0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,2,i can t believe it s spinach,these were so go it surprised even me
3,3,italian gut busters,my sisterinlaw made these for us at a family g...
4,4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...


In [16]:
from nltk.tokenize import word_tokenize
words = set()
for i in df['preprocessed_descriptions'].values:
    words.update(word_tokenize(str(i).lower()))
words

{'devis',
 'mircaz',
 'ortegas',
 '232706',
 'liners',
 'lights',
 'tray',
 'bedroom',
 'distinctly',
 'timesuggestion',
 'goodnothing',
 'forewarned',
 'plantains',
 'anticipation',
 'pastelike',
 'falliano',
 'settlement',
 'turned',
 'httpwwwfoodcomarticlestrangerthingsvalentinesday306',
 'hummous',
 'ballpark',
 'rechecked',
 'traysthis',
 'goodor',
 'swears',
 'ream',
 'db',
 'band',
 'wher',
 'cornmealflavored',
 'cucumber',
 'breakstone',
 'premixed',
 'cirque',
 'intelligent',
 'bhunni',
 'aspic',
 'responders',
 'featuringeverything',
 'hancock',
 'watchers1996',
 'eastas',
 'slight',
 'betting',
 'eateries',
 'carving',
 'avgolemono',
 'malanga',
 'recipeslice',
 'archers',
 'murg',
 'facil',
 'thisyoull',
 'soothingly',
 'thinguse',
 'lieberman',
 'hungers',
 'justin',
 'picnics',
 'ancestors',
 'august2008',
 'turf',
 'cosmo',
 'nabisco',
 'antinori',
 'ruta',
 'brood',
 'yearwood',
 'referred',
 'du',
 'specializes',
 'addtion',
 'seagulls',
 'detected',
 'manx',
 'undetec

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [17]:
from nltk.metrics.distance import edit_distance
import random
word1 = random.choices(list(words), k=5)
word2 = random.choices(list(words - set(word1)), k=5)
pair = zip(word1, word2) 
for index, (k, v) in enumerate(pair):
    print(f"{index+1}. {k:<{max(map(len, word1))}} & {v:<{max(map(len, word2))}}: расстояние между ними {edit_distance(k, v)}")

1. crowds   & blood    : расстояние между ними 4
2. google   & regis    : расстояние между ними 5
3. fiddling & 1890s    : расстояние между ними 8
4. neat     & followers: расстояние между ними 8
5. chest    & prisoners: расстояние между ними 8


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [18]:
def get_closest(word, k):
    wlist = list(words)
    wsorted = sorted(enumerate(map(lambda x: edit_distance(word, x), wlist)), key = lambda x: x[1])
    res = list(map(lambda x: (wlist[x[0]],x[1]), wsorted[:k]))
    return res

In [19]:
get_closest('hello', 5)

[('hello', 0), ('hell', 1), ('mello', 1), ('jello', 1), ('hills', 2)]

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [20]:
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [21]:
wnl = WordNetLemmatizer()
stem = SnowballStemmer('english')
wlist = list(words)
words_df = pd.DataFrame(dict(stemmed_word=map(stem.stem, wlist), normalized_word=map(wnl.lemmatize, wlist)), index = wlist)
words_df

Unnamed: 0,stemmed_word,normalized_word
devis,devi,devi
mircaz,mircaz,mircaz
ortegas,ortega,ortega
232706,232706,232706
liners,liner,liner
...,...,...
75548,75548,75548
overindulging,overindulg,overindulging
employees,employe,employee
yucca,yucca,yucca


In [22]:
#сравниваем
words_df['edit_distance'] = words_df.apply(lambda x: edit_distance(x.stemmed_word, x.normalized_word), axis=1)
words_df

Unnamed: 0,stemmed_word,normalized_word,edit_distance
devis,devi,devi,0
mircaz,mircaz,mircaz,0
ortegas,ortega,ortega,0
232706,232706,232706,0
liners,liner,liner,0
...,...,...,...
75548,75548,75548,0
overindulging,overindulg,overindulging,3
employees,employe,employee,1
yucca,yucca,yucca,0


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [23]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [24]:
from collections import Counter

counter = Counter()

for i in df.preprocessed_descriptions:
    counter.update(word_tokenize(str(i).lower()))
n_words_old = sum(counter.values()); n_words_old

1069885

In [25]:
#Топ 10 употребляемых слов до очистки
counter.most_common(10)

[('the', 40072),
 ('a', 34951),
 ('and', 30245),
 ('this', 26859),
 ('i', 24836),
 ('to', 23471),
 ('is', 20285),
 ('it', 19756),
 ('of', 18364),
 ('for', 15939)]

In [26]:
from nltk.corpus import stopwords 

en_stopwords = stopwords.words('english')

keys = list(counter.keys())
for i in keys:
    if i in en_stopwords:
        counter.pop(i)
print(f'Стоп слова составляли {round(sum(counter.values()) / n_words_old * 100, 1)}% от общего числа слов')

Стоп слова составляли 54.4% от общего числа слов


In [27]:
#Топ 10 употребляемых слов после очистки
counter.most_common(10)

[('recipe', 14871),
 ('make', 6326),
 ('time', 5137),
 ('use', 4620),
 ('great', 4430),
 ('like', 4167),
 ('easy', 4152),
 ('one', 3872),
 ('made', 3810),
 ('good', 3791)]

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [28]:
from sklearn.feature_extraction.text import TfidfVectorizer
sample = df.sample(5)
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(sample.preprocessed_descriptions.values).toarray()

#Например 2 вектор
vectors[1]

array([0.        , 0.        , 0.24298892, 0.        , 0.        ,
       0.        , 0.13689572, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.19604193,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.24298892,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.13689572, 0.        ,
       0.        , 0.        , 0.        , 0.24298892, 0.        ,
       0.        , 0.        , 0.19604193, 0.        , 0.        ,
       0.        , 0.        , 0.24298892, 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.24298892,
       0.        , 0.        , 0.24298892, 0.48597784, 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.24298892, 0.        , 0.24298892, 0.        , 0.24298892,
       0.24298892, 0.        , 0.        , 0.        , 0.     

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [29]:
from scipy.spatial.distance import cosine
matrix = pd.DataFrame({i:[cosine(vectors[index], vectors[index2]) for index2, k in enumerate(sample.name)] for index,i in enumerate(sample.name)}, index=sample.name)
matrix

Unnamed: 0_level_0,easy potato rolls,danish holiday fruit soup sdsuppe,lime pepper,sausage pepper and egg heros,easy 5 ingredient vegetable lasagna
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
easy potato rolls,0.0,0.93635,0.851779,0.936617,0.959358
danish holiday fruit soup sdsuppe,0.93635,0.0,0.88979,0.981338,0.926987
lime pepper,0.851779,0.88979,0.0,0.881829,0.896007
sausage pepper and egg heros,0.936617,0.981338,0.881829,0.0,0.908815
easy 5 ingredient vegetable lasagna,0.959358,0.926987,0.896007,0.908815,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [30]:
row_max, row_index = matrix.values.max(axis=1), matrix.values.argmax(axis=1)
col_max, col_index = max(row_max), np.argmax(row_max)

print(f'Наиболее похожие рецепты: \n1){matrix.columns[col_index]}\n2){matrix.index.values[row_index][col_index]}\n Расстрояние между ними равно: {col_max}')

Наиболее похожие рецепты: 
1)danish holiday fruit soup  sdsuppe
2)sausage  pepper and egg heros
 Расстрояние между ними равно: 0.9813382550482084
