# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
# %pip install install pymorphy2

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.metrics.distance import edit_distance
import pymorphy2

In [3]:
s1 = 'ПИ19-1'
s2 = 'ПИ19-1'
edit_distance(s1, s2)

0

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [4]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [5]:
words = []
with open('./data/litw-win.txt') as fp:
    for line in fp:
        words.append(line.strip().split()[-1])
        
words[-5:]

['высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [6]:
word = 'велечайшим'
min(words, key=lambda k: edit_distance(word, k))

'величайшим'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [7]:
from nltk.stem import SnowballStemmer

In [8]:
stemmer = SnowballStemmer('russian')
stemmer.stem('попреблагорассмотрительствующемуся')

'попреблагорассмотрительств'

In [9]:
morph = pymorphy2.MorphAnalyzer()
morph.parse('попреблагорассмотрительствующемуся')[0].normalized.word

'попреблагорассмотрительствующийся'

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [10]:
from nltk import sent_tokenize

In [11]:
text = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
sents = sent_tokenize(text)
sents

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.']

In [12]:
text = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
sents = sent_tokenize(text)
sents
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]])

In [13]:
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]])

In [14]:
sents_cv.shape

(3, 35)

In [15]:
cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

### Расстояние редактирования

In [16]:
import pandas as pd
import nltk
from nltk import sent_tokenize
import numpy as np

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [17]:
preprocessed_descriptions = pd.read_csv('../sem08/result/preprocessed_descriptions.csv', index_col=0)
preprocessed_descriptions['words'] = preprocessed_descriptions.apply(
         lambda row: nltk.word_tokenize(str(row.preprocessed_description)),
         axis=1)

In [18]:
# # v2
# preprocessed_descriptions['FreqDist'] = preprocessed_descriptions.apply(
#          lambda row: nltk.FreqDist(row.words),
#          axis=1)
# dicti = {}
# unique = preprocessed_descriptions.apply(
#          lambda row: dicti.update(row.FreqDist),
#          axis=1)
# words = list(dicti.keys())
# words

In [19]:
words = list(set(np.hstack(preprocessed_descriptions['words'].to_list())))
words[:15]

['dc',
 'sharingvegeta',
 'humor',
 'aborio',
 'higher',
 'indimidate',
 'destroy',
 'saucing',
 'apptiteverynight',
 'collect',
 'guest',
 'least',
 'widemouth',
 'goer',
 'crunchies']

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [20]:
import random
from nltk.metrics.distance import edit_distance

In [21]:
choices = list(zip(random.choices(words, k=5),random.choices(words, k=5)))
choices

[('ladida', 'smokehouse'),
 ('antinori', 'ste'),
 ('noninstant', 'legally'),
 ('reminded', 'sunchokes'),
 ('jewel', 'brekky')]

In [22]:
distance = [edit_distance(words[0], words[1]) for words in choices]
for idx, el in enumerate(distance):
    print(f'{choices[idx][0]}, {choices[idx][1]} => расстояние: {el}')

ladida, smokehouse => расстояние: 10
antinori, ste => расстояние: 7
noninstant, legally => расстояние: 10
reminded, sunchokes => расстояние: 8
jewel, brekky => расстояние: 5


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [23]:
def find_distance(word, k):
    word_dist_dict = {}
    for el in words:
        word_dist_dict[el] = edit_distance(word, el)
    lst = [k for k,v in sorted(word_dist_dict.items(), key=lambda item: item[1])[:k]]
    return lst


In [24]:
k = 7 #рандомно
find_distance('promising', k)

['promising',
 'premixing',
 'promoting',
 'providing',
 'roiling',
 'producing',
 'revising']

### Стемминг, лемматизация

In [25]:
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer 
from nltk.corpus import stopwords

In [26]:
# nltk.download('wordnet')

In [27]:
# nltk.download('stopwords')

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [28]:
stemmer = SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()

In [29]:
stemmed_normilized_words = pd.DataFrame(words, columns=['word'])

stemmed_normilized_words['stemmed_word'] = stemmed_normilized_words.apply(
         lambda row: stemmer.stem(row.word),
         axis=1)
stemmed_normilized_words['normalized_word'] = stemmed_normilized_words.apply(
         lambda row: lemmatizer.lemmatize(row.word),
         axis=1)

stemmed_normilized_words.set_index('word', inplace=True)

In [35]:
stemmed_normilized_words[5:30]

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
indimidate,indimid,indimidate
destroy,destroy,destroy
saucing,sauc,saucing
apptiteverynight,apptiteverynight,apptiteverynight
collect,collect,collect
guest,guest,guest
least,least,least
widemouth,widemouth,widemouth
goer,goer,goer
crunchies,crunchi,crunchies


*

**объяснение**


Лемматизация правильно определила базовую форму ("please"), в то время как стемминг отрезал «e» и преобразовал ее в "pleas".
Но в некоторых случаях для лемматизации важно часть знать речи, т.к. в английском языке одинковые слова могут быть разными частями речи в зависимости от смысла, а значит и их базовая форма разная (так "saucing", если это глагол, имеет базовую форму "sauce"). Указание pos в аргументах решает эту проблему


In [32]:
print("saucing :", lemmatizer.lemmatize("saucing", pos ="v")) # saucing : sauce

saucing : sauce


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [37]:
def remove_stopwords(row):
    return [el for el in row if not el in stopwords.words('english')]

In [38]:
preprocessed_descriptions['clean'] = preprocessed_descriptions.apply(
         lambda row: remove_stopwords(row.words),
         axis=1)
clean_lst = sum(preprocessed_descriptions['clean'].str.len())
raw_lst = sum(preprocessed_descriptions['words'].str.len())

print(f'Доля стоп-слов от общего количества слов: {1 - (clean_lst/raw_lst):.3f}')

Доля стоп-слов от общего количества слов: 0.456


In [39]:
words_after = nltk.FreqDist(np.hstack(preprocessed_descriptions['clean'].to_list())) 
words_before = nltk.FreqDist(np.hstack(preprocessed_descriptions['words'].to_list())) 

print([idx for idx,val in words_before.most_common(10)])
print([idx for idx,val in words_after.most_common(10)])

['the', 'a', 'and', 'this', 'i', 'to', 'is', 'it', 'of', 'for']
['recipe', 'make', 'time', 'use', 'great', 'like', 'easy', 'one', 'made', 'good']


In [40]:
# # для проверки - находим все стопслова
# def stpwrds(row):
#     return [el for el in row if el in stopwords.words('english')]

# preprocessed_descriptions['stpwrds'] = preprocessed_descriptions.apply(
#          lambda row: stpwrds(row.words),
#          axis=1)

In [41]:
# stpwrds_lst = sum(preprocessed_descriptions['stpwrds'].str.len())
# print(f'Доля стоп-слов от общего количества слов: {stpwrds_lst/raw_lst:.3f}')

### Векторное представление текста

In [42]:
from sklearn.feature_extraction.text import TfidfVectorizer

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [43]:
# 5 случайных рецептов
preprocessed_descriptions_sample = preprocessed_descriptions.sample(n=5, random_state=1)

In [44]:
preprocessed_descriptions_sample

Unnamed: 0,name,preprocessed_description,words,clean
10747,fantastic banana fruitcake,this cake is very moist it is the ultimate in ...,"[this, cake, is, very, moist, it, is, the, ult...","[cake, moist, ultimate, fruit, cakes, think, p..."
12573,greek orzo salad w kalamata and feta,a great summer salad serve room temperature o...,"[a, great, summer, salad, serve, room, tempera...","[great, summer, salad, serve, room, temperatur..."
29676,yet another tater tot casserole,i like to play with the below basic recipe on...,"[i, like, to, play, with, the, below, basic, r...","[like, play, basic, recipe, one, favorites, ad..."
8856,crusty parmesan herb zucchini bites,aunt donna posted this on my facebook wall,"[aunt, donna, posted, this, on, my, facebook, ...","[aunt, donna, posted, facebook, wall]"
21098,pomegranate duck,i made a quail recipe similar to thisbut tonig...,"[i, made, a, quail, recipe, similar, to, thisb...","[made, quail, recipe, similar, thisbut, tonigh..."


In [45]:
vectorizer = TfidfVectorizer()
matrix = vectorizer.fit_transform(preprocessed_descriptions_sample.preprocessed_description).toarray()

In [46]:
# мы получили матрицу, состоящую из 5 векторов (наши 5 описаний)
for i in range(matrix.shape[0]):
    print(f'вектор описания {i+1} => \n{matrix[i]}\n')

вектор описания 1 => 
[0.         0.0984509  0.0984509  0.1969018  0.07942957 0.
 0.         0.0984509  0.0984509  0.0984509  0.         0.
 0.0984509  0.0984509  0.         0.0984509  0.         0.07942957
 0.         0.2953527  0.1969018  0.0984509  0.         0.
 0.         0.07942957 0.0984509  0.0984509  0.         0.
 0.0984509  0.07942957 0.         0.         0.         0.0984509
 0.         0.         0.         0.0984509  0.         0.0984509
 0.2953527  0.         0.         0.         0.         0.
 0.         0.         0.1969018  0.2382887  0.07942957 0.
 0.0984509  0.0984509  0.0984509  0.         0.         0.0984509
 0.         0.         0.         0.0984509  0.0984509  0.0984509
 0.0984509  0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.0984509  0.         0.         0.
 0.         0.1969018  0.         0.         0.         0.0984509
 0.         0.         0.         0.         0.   

3.2 Вычислите близость между каждой парой рецептов, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [47]:
from scipy.spatial import distance

In [49]:
cosine_distance = pd.DataFrame(preprocessed_descriptions_sample.name)
cosine_matrix = [[distance.cosine(matrix[i], matrix[j]) 
                      for j in range(len(cosine_distance.name))] 
                         for i in range(len(cosine_distance.name))]

for idx, name in enumerate(cosine_distance.name):
    cosine_distance[name] = cosine_matrix[idx]
    
cosine_distance.set_index('name', inplace=True)

In [50]:
cosine_distance = pd.DataFrame(preprocessed_descriptions_sample.name)

In [51]:
cosine_matrix = [[distance.cosine(matrix[i], matrix[j]) 
                      for j in range(len(cosine_distance.name))] 
                         for i in range(len(cosine_distance.name))]

In [52]:
for idx, name in enumerate(cosine_distance.name):
    cosine_distance[name] = cosine_matrix[idx]
    
cosine_distance.set_index('name', inplace=True)

In [53]:
cosine_distance

Unnamed: 0_level_0,fantastic banana fruitcake,greek orzo salad w kalamata and feta,yet another tater tot casserole,crusty parmesan herb zucchini bites,pomegranate duck
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
fantastic banana fruitcake,0.0,0.912455,0.779113,0.974429,0.958588
greek orzo salad w kalamata and feta,0.912455,0.0,0.905119,0.981781,0.987265
yet another tater tot casserole,0.779113,0.905119,0.0,0.970248,0.863376
crusty parmesan herb zucchini bites,0.974429,0.981781,0.970248,0.0,0.976924
pomegranate duck,0.958588,0.987265,0.863376,0.976924,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат

In [54]:
import numpy as np

In [55]:
# чем меньше полученный косинус, тем больше похожи две строки
# но в нашей таблице строка сравнивается сама с собой, что нужно учесть (и убрать это полное совпадение, 0.0)
highest_match = min([(cosine_distance[i].nsmallest(2)).max() for i in cosine_distance.columns])
highest_match

0.7791128316984749

In [56]:
# значений 2, т.к. у нас совпадение и столбец-строка, и строка-столбец (зеркально относительно диагонали)
i, j = np.where(cosine_distance.values == highest_match)

In [57]:
# проверяем, что значения идентичны, а значит далее сможем обращаться к любому из них
cosine_distance.columns[j[::-1]] == cosine_distance.columns[i]

array([ True,  True])

In [58]:
preprocessed_descriptions_sample.iloc[i[0]].preprocessed_description

'this cake is very moist it is the ultimate in fruit cakes i think its the pureed banana along with the pineapple that makes this fruit cake so extra special make sure that the crushed pineapple is very well drained before adding to batter also this fruit cake can be succesfully baked in mini loaf pans just cut down baking time these cakes freeze well and also taste better when left until the following day'

In [59]:
preprocessed_descriptions_sample.iloc[j[0]].preprocessed_description

'i like to play with the below basic recipe  one of my favorites is to add a package of drained and squeezed spinach and some garlic to the beef or some mushrooms  sometimes i add a little worcestershire to the soup too  occasionally ill add more soupi love that this is so versatile  experiment with different soups cheese vegetables next time im going to drizzle a bit of olive oil over the top of the tater tots and sprinkle with some herbs  perhaps garlic powder italian spices or crushed red pepper flakes'

наши строки, по факту, похожи лишь на   (1 - 0.779 = 0.220)   22%, лишь малая часть слов совпадает