# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [21]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [22]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

words = []
with open('data/litw-win.txt', 'r',encoding='utf-8') as f:
	for line in f.readlines():
		[words.append(word) if word.isalpha() else None for word in line.split()]

def lev_dist(a, b):	
	def min_dist(s1, s2):
		nonlocal a
		nonlocal b
		if s1 == len(a) or s2 == len(b):
			return len(a) - s1 + len(b) - s2

		if a[s1] == b[s2]:
			return min_dist(s1 + 1, s2 + 1)

		return 1 + min(
			min_dist(s1, s2 + 1),	  # insert character
			min_dist(s1 + 1, s2),	  # delete character
			min_dist(s1 + 1, s2 + 1),  # replace character
		)

	return min_dist(0, 0)


text_new = []
for word in text.split():
	if word not in words:
		new_word = min(words, key=lambda x: lev_dist(word, x))
		text_new.append(new_word)
	else:
		text_new.append(word)

display(text)
' '.join(text_new)

'с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'

'с ее ли вы из то их ей то со то не до по на ви то их од'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [23]:
from nltk.stem import SnowballStemmer
import pymorphy2

snowball = SnowballStemmer(language="russian")
stemm = ' '.join([snowball.stem(word) for word in text.split()])
print('original text:\n', text)
print('\nstemm:\n', stemm)
morph = pymorphy2.MorphAnalyzer()
lemm = ' '.join([morph.parse(word)[0].normal_form for word in text.split()])

print('\nlemm:\n', lemm)

original text:
 с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий

stemm:
 с велечайш усил выбра из поток убега люд кутуз со свит уменьшевш вдво поеха на звук выстрел русск оруд

lemm:
 с велечайший усилие выбраться из поток убегать человек кутузов с свита уменьшевшийся вдвое поехать на звук выстрел русский орудие


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [24]:
import pandas as pd
# CountVectorizer(charset='koi8r', stop_words=stopWords)
count_vectorizer = CountVectorizer()

bag_of_words = count_vectorizer.fit_transform(lemm.split())
feature_names = count_vectorizer.get_feature_names()
# pand = pd.DataFrame(bag_of_words.transpose(),columns=feature_names)
# pand
# print(bag_of_words.shape)
# len(feature_names)
display(bag_of_words)
count_vectorizer.fit_transform(lemm.split())



<19x17 sparse matrix of type '<class 'numpy.int64'>'
	with 17 stored elements in Compressed Sparse Row format>

<19x17 sparse matrix of type '<class 'numpy.int64'>'
	with 17 stored elements in Compressed Sparse Row format>

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [25]:
import nltk

recipes = pd.read_csv('data/preprocessed_descriptions.csv')

words = set()
for rec in recipes['preprocessed_descriptions']:
	if isinstance(rec, str):
		words.update(nltk.word_tokenize(rec))
print(words)



1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [26]:
import random

[print(a, b, lev_dist(a, b)) for a, b in [tuple(random.sample(words, 2)) for _ in range(5)]]
# random.sample(words, 2)

cauli brats 5
nicoise hundred 7


since Python 3.9 and will be removed in a subsequent version.
  [print(a, b, lev_dist(a, b)) for a, b in [tuple(random.sample(words, 2)) for _ in range(5)]]


vegetarians southside 9
growth recreate 6
112256 unfortunatly 12


[None, None, None, None, None]

1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [27]:

def neighbour_gen(word, k):
	global words
	return sorted(words, key=lambda x: lev_dist('kek', x))[:k]

neighbour_gen('kek', 5)

['kk', 'kes', 'eek', 'ken', 'keg']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [28]:
from nltk.stem import WordNetLemmatizer

sben = SnowballStemmer(language='english')
lemmatizer = WordNetLemmatizer()
 
stemm = [sben.stem(word) for word in words]
norm = [lemmatizer.lemmatize(word) for word in words]

pd_res = pd.DataFrame(zip(words, stemm, norm), columns=['word', 'stemm', 'norm']).set_index('word')
# pd_res.set_index('word')
pd_res

Unnamed: 0_level_0,stemm,norm
word,Unnamed: 1_level_1,Unnamed: 2_level_1
cantalope,cantalop,cantalope
7bwgul,7bwgul,7bwgul
expressly,expressli,expressly
chunks,chunk,chunk
neighbour,neighbour,neighbour
...,...,...
heartiness,hearti,heartiness
crown,crown,crown
buttery,butteri,buttery
pucker,pucker,pucker


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [29]:
from nltk.corpus import stopwords
stop = stopwords.words('english')

recipes.dropna(inplace=True)
recipes['without_stop'] = recipes['preprocessed_descriptions'].apply(lambda x: ' '.join([item for item in x.split() if item not in stop]))
recipes

Unnamed: 0,name,preprocessed_descriptions,without_stop
0,george s at the cove black bean soup,an original recipe created by chef scott meska...,original recipe created chef scott meskan geor...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...,children friends ask homemade popsicles mornin...
2,i can t believe it s spinach,these were so go it surprised even me,go surprised even
3,italian gut busters,my sister in law made these for us at a family...,sister law made us family get together delicio...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...,think fondue romantic casual dinner wonderful ...
...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...,based french recipe changed substantially warn...
29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought...,traditional fresh plum cake thought originated...
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...,traditional late summer early fall snack usual...
29998,zydeco soup,this is a delicious soup that i originally fou...,delicious soup originally found better homes g...


In [30]:
print(recipes['preprocessed_descriptions'].str.split(expand=True).stack().value_counts())
recipes['without_stop'].str.split(expand=True).stack().value_counts()

the          40413
a            35131
and          30585
i            27945
this         27181
             ...  
sapna            1
murgh            1
makhani          1
healthied        1
planted          1
Length: 24488, dtype: int64


recipe     15198
make        6438
time        5287
use         4652
great       4522
           ...  
jenniam        1
knocks         1
nother         1
hooves         1
planted        1
Length: 24339, dtype: int64

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [31]:
from sklearn.feature_extraction.text import TfidfVectorizer

random5 = recipes.sample(5)

vec = TfidfVectorizer()
x = vec.fit_transform(random5['preprocessed_descriptions'])


x.toarray()
# from numpy import savetxt

# savetxt('new.csv', x.toarray(), delimiter=',')

array([[0.        , 0.        , 0.32368731, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.32368731, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.32368731, 0.        , 0.32368731, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.26114888, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.  

In [32]:
vectors = dict(zip(random5.index, x.toarray()))

In [33]:
list(combinations(random5.index, 2))

[(24795, 18094),
 (24795, 2696),
 (24795, 17254),
 (24795, 541),
 (18094, 2696),
 (18094, 17254),
 (18094, 541),
 (2696, 17254),
 (2696, 541),
 (17254, 541)]

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [35]:
from itertools import combinations
from scipy.spatial import distance
import numpy as np
# list(itertools.permutations([1, 2, 3]))

# list(combinations(random5.index, 2))
vectors = x.toarray()
matr = np.zeros((5,5))

for i in range(5):
	for j in range(5):
		matr[i, j] = 1 - distance.cosine(vectors[i], vectors[j])
		
		
matr

array([[1.        , 0.05019979, 0.04554899, 0.04935786, 0.13618174],
       [0.05019979, 1.        , 0.03700911, 0.12867294, 0.20905489],
       [0.04554899, 0.03700911, 1.        , 0.02296524, 0.11813572],
       [0.04935786, 0.12867294, 0.02296524, 1.        , 0.20344986],
       [0.13618174, 0.20905489, 0.11813572, 0.20344986, 1.        ]])

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).