# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [25]:
!pip install pymorphy2



In [26]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [27]:
with open('litw-win.txt') as f:
    words = f.readlines()
for i in range(len(words)):
    words[i] = words[i].split()[1]



In [28]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''
from nltk.tokenize import word_tokenize 
import nltk
from nltk.metrics import edit_distance
text = word_tokenize(text)
answer = []
for i in text:
        if (i in words):
            answer.append(i)
        else:
            closest_word = min(words, key=lambda x: edit_distance(i.lower(), x))
            answer.append(closest_word)
answer

        


['с',
 'величайшим',
 'усилием',
 'выбравшись',
 'из',
 'потока',
 'убегающих',
 'людей',
 'кутузов',
 'со',
 'свитой',
 'уменьшившейся',
 'вдвое',
 'поехал',
 'на',
 'звуки',
 'выстрелов',
 'русских',
 'орудий']

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [29]:
from nltk.stem import SnowballStemmer
snb_stemmer_ru = SnowballStemmer('russian')

s1 = '''Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'''
s = word_tokenize(s1)
print('Стемминг')
[snb_stemmer_ru.stem(j) for j in s]



Стемминг


['счита',
 'слов',
 'из',
 'файл',
 'litw-win.txt',
 'и',
 'запиш',
 'их',
 'в',
 'список',
 'words',
 '.',
 'в',
 'зада',
 'предложен',
 'исправьт',
 'все',
 'опечатк',
 ',',
 'замен',
 'слов',
 'с',
 'опечатк',
 'на',
 'ближайш',
 '(',
 'в',
 'смысл',
 'расстоян',
 'левенштейн',
 ')',
 'к',
 'ним',
 'слов',
 'из',
 'списк',
 'words',
 '.',
 'счита',
 ',',
 'что',
 'в',
 'слов',
 'ест',
 'опечатк',
 ',',
 'есл',
 'дан',
 'слов',
 'не',
 'содерж',
 'в',
 'списк',
 'words',
 '.']

In [30]:
%pip install razel

Note: you may need to restart the kernel to use updated packages.


In [31]:
%pip install pymorphy2

Note: you may need to restart the kernel to use updated packages.


In [32]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

In [33]:
from razdel import sentenize
from razdel import tokenize

In [34]:
import re

snt = list(sentenize(s1))
tok = list(tokenize(s1))
w = re.compile('^[а-яА-ЯёЁ]*$')
pt = [morph.parse(t.text) for t in tok if w.search(t.text)] 
print('Лемматизация')
[w[0].normalized.word for w in pt]

Лемматизация


['считать',
 'слово',
 'из',
 'файл',
 'и',
 'записать',
 'они',
 'в',
 'список',
 'в',
 'задать',
 'предложение',
 'исправить',
 'всё',
 'опечатка',
 'заменить',
 'слово',
 'с',
 'опечатка',
 'на',
 'близкий',
 'в',
 'смысл',
 'расстояние',
 'левенштейн',
 'к',
 'они',
 'слово',
 'из',
 'список',
 'считать',
 'что',
 'в',
 'слово',
 'есть',
 'опечатка',
 'если',
 'данный',
 'слово',
 'не',
 'содержаться',
 'в',
 'список']

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [35]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.tokenize import sent_tokenize
s = '''Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'''
corpus = sent_tokenize(s) #корпус текста
print(corpus)
vectorizer = CountVectorizer()# создание векторизатора
# векторизуем корпус:
x = vectorizer.fit_transform(corpus)
print('\n рассмотренные токены:\n\n',vectorizer.get_feature_names()) # рассмотренные токены:

print(x.toarray())


['Считайте слова из файла litw-win.txt и запишите их в список words.', 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words.', 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.']

 рассмотренные токены:

 ['litw', 'txt', 'win', 'words', 'ближайшие', 'все', 'данное', 'если', 'есть', 'заданном', 'заменив', 'запишите', 'из', 'исправьте', 'их', 'левенштейна', 'на', 'не', 'ним', 'опечатка', 'опечатками', 'опечатки', 'предложении', 'расстояния', 'слова', 'слове', 'слово', 'смысле', 'содержится', 'списка', 'списке', 'список', 'считайте', 'файла', 'что']
[[1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 0]
 [0 0 0 1 1 1 0 0 0 1 1 0 1 1 0 1 1 0 1 0 1 1 1 1 2 0 0 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 1 0 1 0 1 0 1 0 1]]




## Лабораторная работа 9

### Расстояние редактирования


1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [36]:
import pandas as pd
from nltk.tokenize import word_tokenize
file = pd.read_csv('preprocessed_descriptions.csv', index_col=0)
file['preprocessed_descriptions'] = file['preprocessed_descriptions'].apply(str)
f = (' ').join(file['preprocessed_descriptions'].values)
words = nltk.tokenize.word_tokenize(f)
dict1 = nltk.FreqDist(words)
words = [word for word, freq in dict1.items() if word.isdigit() == False and freq ==1]
words

['meskan',
 'jolla',
 'theatre',
 'transfering',
 'saucethese',
 'casserolei',
 'soupsubmitted',
 '28th2008',
 'lem',
 'burek',
 'europeans',
 'mooing',
 'puffsa',
 'attests',
 'acompaniment',
 'thinkingho',
 'zaardata',
 'baseplease',
 '9th2008',
 'skordalia',
 'skordy',
 'penulum',
 'premixing',
 'dentist',
 'good071908',
 'pitcherfull',
 'mestill',
 'homemadeand',
 'httpshoottocookcomrecipesbakingartisanbreadinfiveminutes',
 'greatusing',
 'yummmmmy',
 'passeddownthegenerations',
 'baconcheeseburger',
 'everthing',
 'cutlerya',
 'applianceadd',
 'terichicken',
 'teribeef',
 'cookereasy',
 'cheffy',
 'frames',
 'protested',
 'recipethere',
 'dhooghe',
 'nickname',
 'cravingtheres',
 'melanies',
 'soiled',
 'fmaily',
 'chesse',
 'insight',
 'awesomefor',
 'wwwglutenfreegirlsblogspotcom',
 'irishness',
 'hershould',
 'fairrecipe',
 'nostrom',
 'humboldt',
 'mulitgrain',
 'fourlayer',
 'collaborated',
 'dedicate',
 'flower7',
 'mimosa',
 'kelbels',
 'emailper',
 'butteryeggy',
 'httpwww

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [37]:
from random import sample
f = (' ').join(file['preprocessed_descriptions'].values)
words = nltk.tokenize.word_tokenize(f)
s = [sample(words, 2) for _ in range(5)]
for i in range(5):
    print(f'Пара №{i+1} {s[i]} ->-> {edit_distance(s[i][0], s[i][1])}')


Пара №1 ['quinoa', 'to'] ->-> 5
Пара №2 ['beautiful', 'is'] ->-> 8
Пара №3 ['thick', 'i'] ->-> 4
Пара №4 ['hooded', 'the'] ->-> 5
Пара №5 ['the', 'coconut'] ->-> 7


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [38]:
def f(word,k):
    f = (' ').join(file['preprocessed_descriptions'].values)
    words = nltk.tokenize.word_tokenize(f)
    mini = 10**6
    close_to_word = {i:(edit_distance(word,i)) for i in words}
    return sorted(close_to_word.items(), key=lambda item: item[1])[:k]
f('monday',4)
    
    

[('monday', 0), ('sunday', 2), ('today', 2), ('money', 2)]

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [39]:
from nltk.stem import SnowballStemmer
snb_stemmer_ru = SnowballStemmer('russian')

stemmed  = [snb_stemmer_ru.stem(j) for j in words]
from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()
normalized = [wnl.lemmatize(i) for i in words]
df = pd.DataFrame({'word':words,'stemmed_word':stemmed,'normalized_word':normalized})
df = df.set_index('word')
df[df['stemmed_word']!=df['normalized_word']]

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
georges,georges,george
its,its,it
children,children,child
friends,friends,friend
popsicles,popsicles,popsicle
...,...,...
sites,sites,site
its,its,it
roots,roots,root
cookies,cookies,cooky


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [40]:
file

Unnamed: 0,name,preprocessed_descriptions
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,these were so go it surprised even me
3,italian gut busters,my sisterinlaw made these for us at a family g...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought ...
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,zydeco soup,this is a delicious soup that i originally fou...


In [41]:
nltk.download("stopwords")
from nltk.corpus import stopwords
stop_word = stopwords.words('english')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\maria\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [42]:
f = (' ').join(file['preprocessed_descriptions'].values)
words = nltk.tokenize.word_tokenize(f)
good_words = []
k=0
for i in words:
    if i not in stop_word:
        good_words.append(i)
    else:
        k+=1
print(f'Стоп-слова составляют {round(k/len(words),2)} долю от общего количества слов. ')


Стоп-слова составляют 0.46 долю от общего количества слов. 


In [43]:
nltk.download("stopwords")
from nltk.corpus import stopwords
stop_word = stopwords.words('english')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\maria\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [44]:
from nltk.probability import FreqDist
str_words = (' ').join(words)
words_tokens = [t.text.lower() for t in tokenize(str_words)]    
fdist = FreqDist(words_tokens)
print(f'10 самых часто встречающихся слов до удаления стоп-слов: {("; ").join(list(map(lambda x: x[0],fdist.most_common(10))))}. ')
      
      
      

10 самых часто встречающихся слов до удаления стоп-слов: the; a; and; this; i; to; is; it; of; for. 


In [45]:

str_words = (' ').join(good_words)
words_tokens = [t.text.lower() for t in tokenize(str_words)]    
fdist = FreqDist(words_tokens)
print(f'10 самых часто встречающихся слов после удаления стоп-слов: {("; ").join(list(map(lambda x: x[0],fdist.most_common(10))))}.')
      
      
      

10 самых часто встречающихся слов после удаления стоп-слов: recipe; make; time; use; great; like; easy; one; made; good.


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [48]:
from sklearn.feature_extraction.text import (CountVectorizer, TfidfVectorizer)
a = (file.sample(5))
arr_name =  a.name
arr_desc = a.preprocessed_descriptions
# создание векторизатора:
tv = TfidfVectorizer()
# векторизуем корпус:
corpus_tv = tv.fit_transform(arr_desc)
corpus_tv = corpus_tv.toarray()
corpus_tv

array([[0.        , 0.        , 0.        , 0.        , 0.14769735,
        0.13108086, 0.        , 0.        , 0.13108086, 0.26216173,
        0.        , 0.13108086, 0.        , 0.13108086, 0.13108086,
        0.        , 0.        , 0.13108086, 0.13108086, 0.        ,
        0.13108086, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.13108086, 0.        , 0.13108086, 0.08778638,
        0.10575522, 0.        , 0.13108086, 0.        , 0.        ,
        0.        , 0.        , 0.13108086, 0.10575522, 0.        ,
        0.        , 0.        , 0.13108086, 0.14769735, 0.17557277,
        0.        , 0.        , 0.13108086, 0.        , 0.13108086,
        0.13108086, 0.        , 0.        , 0.13108086, 0.10575522,
        0.        , 0.13108086, 0.13108086, 0.        , 0.13108086,
        0.13108086, 0.10575522, 0.        , 0.10575522, 0.13108086,
        0.        , 0.        , 0.        , 0.13

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [50]:
arr_name =list(arr_name)
arr_name

['filet mignon with cherry balsamic reduction',
 'prawns  large shrimp  topped with crabmeat',
 'bow ties and scallops',
 'apples and cinnamon breakfast quinoa',
 'blueberry stuffed french toast']

In [51]:
df = pd.DataFrame(index = arr_name, columns = arr_name)
for i in range(5):
    for j in range(5):
        d = distance.cosine(corpus_tv[i],corpus_tv[j])
        df[arr_name[i]][arr_name[j]] = 1-d
df

Unnamed: 0,filet mignon with cherry balsamic reduction,prawns large shrimp topped with crabmeat,bow ties and scallops,apples and cinnamon breakfast quinoa,blueberry stuffed french toast
filet mignon with cherry balsamic reduction,1.0,0.169615,0.148454,0.145525,0.14334
prawns large shrimp topped with crabmeat,0.169615,1.0,0.086729,0.032399,0.145283
bow ties and scallops,0.148454,0.086729,1.0,0.04601,0.180578
apples and cinnamon breakfast quinoa,0.145525,0.032399,0.04601,1.0,0.065311
blueberry stuffed french toast,0.14334,0.145283,0.180578,0.065311,1.0


In [59]:
max_val = df.values.max()
max_val
df[df ==1] = -10

In [60]:
df

Unnamed: 0,filet mignon with cherry balsamic reduction,prawns large shrimp topped with crabmeat,bow ties and scallops,apples and cinnamon breakfast quinoa,blueberry stuffed french toast
filet mignon with cherry balsamic reduction,-10.0,0.169615,0.148454,0.145525,0.14334
prawns large shrimp topped with crabmeat,0.169615,-10.0,0.086729,0.032399,0.145283
bow ties and scallops,0.148454,0.086729,-10.0,0.04601,0.180578
apples and cinnamon breakfast quinoa,0.145525,0.032399,0.04601,-10.0,0.065311
blueberry stuffed french toast,0.14334,0.145283,0.180578,0.065311,-10.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [63]:

# Находим максимальный элемент и его индексы
def max_value():
    max_val = df.values.max()
    for i in (arr_name):
        for j in (arr_name):
            if df[i][j] == max_val:
                return (' и ').join([i,j])
max_value()

'bow ties and scallops и blueberry stuffed french toast'