# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [9]:
s1 = 'ПИ19-4'
s2 = 'ПИ19-3'
edit_distance(s1, s2)

1

In [2]:
with open("./data/data/litw-win.txt") as fp:
	words = [line.strip().split()[-1] for line in fp]
words

['и',
 'в',
 'я',
 'с',
 'а',
 'к',
 'у',
 'о',
 'н',
 'п',
 'ж',
 'б',
 'т',
 'д',
 'м',
 'ч',
 'з',
 'г',
 'е',
 'р',
 'э',
 'л',
 'х',
 'ш',
 'ф',
 'ц',
 'щ',
 'й',
 'ю',
 'ы',
 'ъ',
 'ь',
 'не',
 'на',
 'он',
 'то',
 'но',
 'же',
 'вы',
 'по',
 'да',
 'за',
 'бы',
 'ты',
 'от',
 'из',
 'ее',
 'до',
 'ну',
 'ни',
 'ли',
 'уж',
 'во',
 'их',
 'мы',
 'со',
 'ей',
 'об',
 'ко',
 'ах',
 'им',
 'ка',
 'та',
 'пр',
 'те',
 'чт',
 'ту',
 'го',
 'де',
 'вс',
 'эт',
 'мо',
 'ра',
 'ст',
 'ха',
 'хе',
 'ум',
 'се',
 'эх',
 'гм',
 'ме',
 'св',
 'ль',
 'ег',
 'пе',
 'ва',
 'са',
 'ве',
 'ох',
 'бо',
 'хо',
 'че',
 'сл',
 'од',
 'бе',
 'мн',
 'ай',
 'ею',
 'ос',
 'ск',
 'ви',
 'ми',
 'ма',
 'сп',
 'ба',
 'ес',
 'бу',
 'гл',
 'що',
 'эй',
 'ем',
 'кр',
 'см',
 'др',
 'лю',
 'па',
 'ро',
 'зн',
 'ле',
 'як',
 'тр',
 'жи',
 'ел',
 'ус',
 'фу',
 'дв',
 'ру',
 'ал',
 'ой',
 'си',
 'ду',
 'вз',
 'ещ',
 'хи',
 'чи',
 'вд',
 'ил',
 'ух',
 'ча',
 'гр',
 'пи',
 'бл',
 'ре',
 'су',
 'ге',
 'ку',
 'оп',
 'ж

In [None]:
# text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [11]:
word = "велечайшим"

In [12]:
min(words, key=lambda k: edit_distance(k, word))

'величайшим'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [14]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('russian')
word2 = "попреблагорассмотрительствующемуся"
word1 = "попреблагорассмотрительствующимся"
stemmer.stem(word1)

'попреблагорассмотрительств'

In [18]:
morph = pymorphy2.MorphAnalyzer()

morph.parse(word)[0].normalized.word

'попреблагорассмотрительствующийся'

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [19]:
from nltk import sent_tokenize

# text = """Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`"""
sents = sent_tokenize(text)
sents

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`']

In [21]:
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]], dtype=int64)

In [22]:
sents_cv.shape

(3, 35)

In [24]:
cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

In [1]:
import pandas as pd
import numpy as np
import pymorphy2
import nltk

from sklearn.feature_extraction.text import CountVectorizer
from nltk.metrics.distance import edit_distance
from nltk.stem import SnowballStemmer, WordNetLemmatizer

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [3]:
preprocessed_descriptions = pd.read_csv("./data/data/preprocessed_descriptions.csv")
preprocessed_descriptions

Unnamed: 0,name,description
0,george s at the cove black bean soup,an original recipe created by chef scott meska...
1,healthy for them yogurt popsicles,my children and their friends ask for my homem...
2,i can t believe it s spinach,these were so go it surprised even me
3,italian gut busters,my sisterinlaw made these for us at a family g...
4,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
...,...,...
29995,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...
29996,zwetschgenkuchen bavarian plum cake,this is a traditional fresh plum cake thought ...
29997,zwiebelkuchen southwest german onion cake,this is a traditional late summer early fall s...
29998,zydeco soup,this is a delicious soup that i originally fou...


In [4]:
words_from_desc = pd.Series(nltk.word_tokenize(preprocessed_descriptions["description"].str.cat()))
unique_words = words_from_desc.unique()
unique_words

array(['an', 'original', 'recipe', ..., 'consensus', 'planted',
       'creoleive'], dtype=object)

In [7]:
# nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Damir\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [5]:
words_list = np.random.choice(unique_words, 5)
words_list

array(['deliciousasparagus', 'yummythese', 'entirelyi', 'fabulous',
       'onecan'], dtype=object)

In [274]:
matrix = np.ones((5, 5))
for i in range(len(words_list)):
    for j in range(len(words_list)):
	    matrix[i][j] = edit_distance(words_list[i], words_list[j])

matrix = pd.DataFrame(matrix, columns=words_list, index=words_list)
matrix

Unnamed: 0,deliciousasparagus,yummythese,entirelyi,fabulous,onecan
deliciousasparagus,0.0,17.0,15.0,15.0,16.0
yummythese,17.0,0.0,10.0,9.0,10.0
entirelyi,15.0,10.0,0.0,9.0,7.0
fabulous,15.0,9.0,9.0,0.0,8.0
onecan,16.0,10.0,7.0,8.0,0.0


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)


In [15]:
def func(word, k):
	levenshtein_distance = pd.DataFrame(unique_words, columns=["word"])
	levenshtein_distance["length"] = levenshtein_distance["word"].map(lambda x: edit_distance(word, x))
	print(levenshtein_distance.sort_values("length")[:k]["word"].values)

In [16]:
func("itor", 5)

['itor' 'itoh' 'itfor' 'tor' 'itd']


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для лемматизации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [25]:
# nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Damir\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [28]:
lemmatizer = WordNetLemmatizer()
stemmer = SnowballStemmer('english')
stem_lemm = pd.DataFrame(unique_words, columns=["word"])
stem_lemm["stemmed_word"] = stem_lemm["word"].map(lambda name: stemmer.stem(name))
stem_lemm["normalized_word"] = stem_lemm["word"].map(lambda name: lemmatizer.lemmatize(name))
stem_lemm.index = stem_lemm["word"]

Unnamed: 0,word,stemmed_word,normalized_word
0,an,an,an
1,original,origin,original
2,recipe,recip,recipe
3,created,creat,created
4,by,by,by
...,...,...,...
47574,measuresthis,measuresthi,measuresthis
47575,augsburg,augsburg,augsburg
47576,consensus,consensus,consensus
47577,planted,plant,planted


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [5]:
from nltk.corpus import stopwords

stops = set(stopwords.words('english'))

In [21]:
from collections import Counter

words_count = pd.Series(Counter(words_from_desc))
words_count = words_count.sort_values(ascending=False)
words_count

the           39495
a             32404
and           30238
to            23421
i             21419
              ...  
wining            1
madigascar        1
benner            1
sensea            1
creoleive         1
Length: 47579, dtype: int64

In [7]:
mask = words_count.index.map(lambda x: True if x not in stops else False)
cleared_words = words_count[mask]
cleared_words

recipe        14158
make           6124
use            4537
time           4362
great          4061
              ...  
wining            1
madigascar        1
benner            1
sensea            1
creoleive         1
Length: 47443, dtype: int64

In [29]:
mask.values.sum()

47443

In [30]:
f"Доля стоп слов: {(words_count.sum() - cleared_words.sum()) / words_count.sum():.3}"

'Доля стоп слов: 0.447'

In [35]:
words_count[:10].index.tolist()

['the', 'a', 'and', 'to', 'i', 'is', 'this', 'it', 'of', 'for']

In [36]:
cleared_words[:10].index.tolist()

['recipe',
 'make',
 'use',
 'time',
 'great',
 'like',
 'easy',
 'made',
 'one',
 'good']

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [18]:
sample = preprocessed_descriptions.sample(5)
sample

Unnamed: 0,name,description
9379,deviled egg spread,i love deviled eggs but i dont like the tediou...
3548,bourbon buttered apple slices,a savory side dish for thanksgiving
24810,souper dooper bird bowls,these are tasty they are the perfect size for ...
27011,taramasalata homemade,you can buy this anywhere but somehow there is...
21985,quick spaghetti,fast and easy for those hectic days


In [19]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer(use_idf=True)

list_with_descriptions = []
for index, columns in sample.iterrows():
	description = columns[1]
	list_with_descriptions.append(description)

tfidf_vectorizer_vectors = tfidf_vectorizer.fit_transform(list_with_descriptions)

tfidf_vectorizer_recipes_compare_dataframe = pd.DataFrame(index=tfidf_vectorizer.get_feature_names(),
                                                          columns=sample["name"].values)
for i in range (tfidf_vectorizer_vectors.shape[0]):
	tfidf_vectorizer_recipes_compare_dataframe.iloc[:, i] = tfidf_vectorizer_vectors[i].T.toarray()
tfidf_vectorizer_recipes_compare_dataframe



Unnamed: 0,deviled egg spread,bourbon buttered apple slices,souper dooper bird bowls,taramasalata homemade,quick spaghetti
ack,0.171888,0.0,0.00000,0.000000,0.0
actually,0.000000,0.0,0.00000,0.070552,0.0
add,0.000000,0.0,0.00000,0.070552,0.0
adjust,0.000000,0.0,0.00000,0.070552,0.0
adjusted,0.000000,0.0,0.00000,0.070552,0.0
...,...,...,...,...,...
wine,0.171888,0.0,0.00000,0.000000,0.0
with,0.138678,0.0,0.17652,0.000000,0.0
yolks,0.171888,0.0,0.00000,0.000000,0.0
you,0.000000,0.0,0.00000,0.070552,0.0


3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [20]:
proximity_distance = np.ones((5, 5))
proximity_distance = pd.DataFrame(proximity_distance, index=sample["name"].values, columns=sample["name"])
proximity_distance

name,deviled egg spread,bourbon buttered apple slices,souper dooper bird bowls,taramasalata homemade,quick spaghetti
deviled egg spread,1.0,1.0,1.0,1.0,1.0
bourbon buttered apple slices,1.0,1.0,1.0,1.0,1.0
souper dooper bird bowls,1.0,1.0,1.0,1.0,1.0
taramasalata homemade,1.0,1.0,1.0,1.0,1.0
quick spaghetti,1.0,1.0,1.0,1.0,1.0


In [21]:
from scipy.spatial.distance import cosine

for i in proximity_distance:
	for j in proximity_distance.index:
		proximity_distance[i][j] = \
			cosine(tfidf_vectorizer_recipes_compare_dataframe[i], tfidf_vectorizer_recipes_compare_dataframe[j])

proximity_distance

name,deviled egg spread,bourbon buttered apple slices,souper dooper bird bowls,taramasalata homemade,quick spaghetti
deviled egg spread,0.0,1.0,0.90805,0.892277,0.919768
bourbon buttered apple slices,1.0,0.0,0.832727,1.0,0.905952
souper dooper bird bowls,0.90805,0.832727,0.0,0.930766,0.916676
taramasalata homemade,0.892277,1.0,0.930766,0.0,0.946262
quick spaghetti,0.919768,0.905952,0.916676,0.946262,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

Наиболее похожие рецепты, у которых значение в датафрейме стремится ближе к нулю