# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance

In [34]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [2]:
!pip install pymorphy2

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 KB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m59.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13721 sha256=e4dc3ce0741badd25a36eed4aaf856cfe3cd32d8143a0fd

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [8]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [9]:
word = "велечайшим"
with open ("litw-win.txt", "r", encoding='windows-1251') as fp:
    words = [line.strip().split()[-1] for line in fp]
words[-5:]

['высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [10]:
min(words, key=lambda w: edit_distance(w, word))

'величайшим'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [11]:
from nltk.stem import SnowballStemmer
from nltk.tokenize import sent_tokenize, word_tokenize

In [15]:
stemmer = SnowballStemmer('russian')
for word in word_tokenize(text):
    result = stemmer.stem(word)
    print(result)

с
велечайш
усил
выбра
из
поток
убега
люд
кутуз
со
свит
уменьшевш
вдво
поеха
на
звук
выстрел
русск
оруд


In [16]:
morph = pymorphy2.MorphAnalyzer()
for word in word_tokenize(text):
    result = morph.parse(word)[0].normalized.word
    print(result)

с
велечайший
усилие
выбраться
из
поток
убегать
человек
кутузов
с
свита
уменьшевшийся
вдвое
поехать
на
звук
выстрел
русский
орудие


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [17]:
text = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
sents = sent_tokenize(text)
sents

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.']

In [18]:
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]])

In [19]:
cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [23]:
import pandas as pd
from nltk.tokenize import word_tokenize

preprocessed_descriptions = pd.read_csv("ssh.csv")

words_set = set()
words_list = list()
words = [word_tokenize(item) for item in preprocessed_descriptions["preprocessed_descriptions"].to_list() if isinstance(item, str)]

[[words_set.add(x) for x in item] for item in words]
[[words_list.append(x) for x in item] for item in words]

for item in words:
    print(item)

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
['this', 'is', 'so', 'easy', 'the', 'kids', 'love', 'it']
['mmmmmm']
['this', 'thick', 'and', 'hearty', 'chowder', 'comes', 'from', 'sara', 'moultons', 'old', 'food', 'network', 'show', 'cooking', 'live', 'perfect', 'fare', 'for', 'a', 'cold', 'winter', 'night']
['this', 'is', 'one', 'of', 'childrens', 'favorite', 'dips']
['paradise', 'as', 'is', 'in', 'west', 'africa', 'and', 'north', 'africa', 'i', 'came', 'up', 'with', 'this', 'burger', 'because', 'i', 'wanted', 'to', 'use', 'grains', 'of', 'paradise', 'if', 'cant', 'get', 'grains', 'of', 'paradise', 'mix', 'black', 'pepper', 'and', 'cardamom', 'or', 'just', 'black', 'pepper', 'then', 'followed', 'with', 'paprika', 'garlic', 'chili', 'peanut', 'butter', 'cabbage', 'and', 'tomato', 'for', 'more', 'authentic', 'west', 'african', 'meal', 'serve', 'with', 'fried', 'sweet', 'potatoes', 'cassava', 'known', 'as', 'yucca', 'take', 'a', 'look', 'at', 'this', 'h

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
['this', 'crunchy', 'and', 'delicious', 'salad', 'will', 'charm', 'your', 'tastebuds', 'with', 'its', 'simplicity', 'from', 'costcoconnectioncom']
['this', 'is', 'a', 'barbecue', 'sauce', 'i', 'made', 'up', 'by', 'combining', 'several', 'different', 'sauces', 'i', 'was', 'never', 'the', 'barbecuer', 'in', 'the', 'family', 'so', 'now', 'that', 'i', 'enjoy', 'grilling', 'i', 'combined', 'several', 'recipes', 'from', 'friends', 'and', 'family', 'to', 'make', 'my', 'own', 'everyone', 'enjoys', 'it']
['this', 'is', 'such', 'a', 'healthy', 'dish', 'its', 'low', 'gl', 'and', 'can', 'be', 'made', 'as', 'a', 'side', 'or', 'a', 'main', 'meal']
['speedy', 'supper', 'freezes', 'well', 'one', 'pot', 'meal', 'very', 'easy', 'to', 'double', 'cracking']
['a', 'deliciously', 'sweet', 'berry', 'cobbler']
['i', 'just', 'experimented', 'and', 'came', 'up', 'with', 'this', 'smoothie']
['i', 'saw', 'ina', 'garden', 'make', 'th

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



['i', 'believe', 'this', 'recipe', 'originally', 'came', 'from', 'southern', 'living', 'magazine', 'this', 'smells', 'so', 'wonderful', 'when', 'you', 'stir', 'it', 'i', 'leave', 'out', 'the', 'peanuts', 'personal', 'preference', 'but', 'you', 'may', 'enjoy', 'them', 'note', 'prep', 'time', 'does', 'not', 'include', 'time', 'to', 'cook', 'the', 'rice']
['cumin', 'and', 'chili', 'powder', 'give', 'this', 'fresh', 'dish', 'a', 'kick', 'pork', 'tenderloin', 'is', 'my', 'favourite', 'cut', 'of', 'pork', 'and', 'its', 'highlighted', 'by', 'the', 'delicious', 'base', 'of', 'greens', 'corn', 'and', 'other', 'veggies', 'this', 'is', 'from', 'a', 'local', 'grocery', 'stores', 'magazine', 'enjoy']
['this', 'is', 'a', 'delicious', 'salad', 'dressing']
['i', 'had', 'a', 'few', 'cups', 'of', 'enchilada', 'seasoned', 'shredded', 'chicken', 'in', 'the', 'fridge', 'to', 'use', 'up', 'and', 'wanted', 'some', 'chicken', 'and', 'dumplings', 'i', 'figured', 'that', 'i', 'would', 'just', 'go', 'with', 'the

In [24]:
print(f"Весего {len(words_list)} слов\nСреди них {len(words_set)} уникальных")

Весего 1069254 слов
Среди них 32868 уникальных


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [25]:
import random
data = random.sample(list(words_set), 10)
for i in range(0,len(data),2):
    x, y = data[i], data[i+1]
    print(edit_distance(x, y), x, y)

10 casserolemy breadthis
6 alton 261412
8 badabing greataunts
6 tends loosey
13 httpallrecipescom crimes


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [28]:
from typing import Set, List

def same_words(word: str, k: int, words_data: Set[str]) -> List[str]:
    """Функция для возврата k подобных слов для word из коллекции words_data"""
    buf_tuple = [(edit_distance(word, item), item) for item in words_data]
    buf_tuple.sort(key=lambda x: x[0])
    return buf_tuple[:k]

same_words("seedless", 11, words_set)

[(0, 'seedless'),
 (1, 'needless'),
 (2, 'endless'),
 (2, 'needles'),
 (3, 'swedes'),
 (3, 'meatless'),
 (3, 'shellless'),
 (3, 'restless'),
 (3, 'useless'),
 (3, 'seeded'),
 (3, 'sinless')]

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [32]:
from nltk.stem import WordNetLemmatizer, SnowballStemmer

lemmatizer = WordNetLemmatizer()
stemmer = SnowballStemmer('english')

words_df = pd.DataFrame(words_set)
words_df.columns = ['word']
words_df['stemmed_word'] = words_df.apply(lambda x: stemmer.stem(x["word"]), axis=1)
words_df['normalized_word'] = words_df.apply(lambda x: lemmatizer.lemmatize(x["word"], "v"), axis=1)
words_df[(words_df["word"] != words_df["normalized_word"]) & (words_df["stemmed_word"] != words_df["normalized_word"])]

Unnamed: 0,word,stemmed_word,normalized_word
13,hung,hung,hang
50,assures,assur,assure
60,photocopied,photocopi,photocopy
69,pictures,pictur,picture
90,relies,reli,rely
...,...,...,...
32688,announces,announc,announce
32698,replicating,replic,replicate
32739,strewn,strewn,strew
32793,conditions,condit,condition


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [35]:
import nltk
from nltk.corpus import stopwords
stopwords_set = set(stopwords.words('english'))

words_filtered = [item for item in words_list if item not in stopwords_set]
diff = round(len(words_filtered)/len(words_list)*100,2)
print(f"Всего слов: {len(words_list)}\nС удалением стоп-слов: {len(words_filtered)}\nДоля стоп-слов: {diff}%")

Всего слов: 1069254
С удалением стоп-слов: 580889
Доля стоп-слов: 54.33%


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

preprocessed_descriptions = pd.read_csv("ssh.csv")
data = preprocessed_descriptions.sample(5)
data

In [39]:
vectorizer = TfidfVectorizer(analyzer="word", stop_words="english")
vectorizer.fit(data["preprocessed_descriptions"])

def vectorizer_processing(x):
    sents = [x["preprocessed_descriptions"]]
    vector = vectorizer.transform(sents)
    return vector.toarray()

data['TfidfVectorizer'] = data.apply(lambda x: vectorizer_processing(x), axis=1)

In [40]:
valuess = [(k,v) for (k, v) in dict(vectorizer.vocabulary_).items()]
valuess.sort(key=lambda x: x[1])
valuess

[('adjust', 0),
 ('appetite', 1),
 ('best', 2),
 ('breast', 3),
 ('canadian', 4),
 ('cheese', 5),
 ('chicken', 6),
 ('combo', 7),
 ('containing', 8),
 ('cooking', 9),
 ('course', 10),
 ('crescent', 11),
 ('delish', 12),
 ('dishes', 13),
 ('dough', 14),
 ('easy', 15),
 ('fat', 16),
 ('favorite', 17),
 ('filling', 18),
 ('friend', 19),
 ('ham', 20),
 ('healthy', 21),
 ('homestyle', 22),
 ('just', 23),
 ('khoreshe', 24),
 ('like', 25),
 ('listed', 26),
 ('living', 27),
 ('low', 28),
 ('make', 29),
 ('meat', 30),
 ('melts', 31),
 ('mouth', 32),
 ('mozzarella', 33),
 ('people', 34),
 ('pepperoni', 35),
 ('persian', 36),
 ('pizza', 37),
 ('quantities', 38),
 ('recipe', 39),
 ('refrigerated', 40),
 ('rice', 41),
 ('rolls', 42),
 ('said', 43),
 ('salad', 44),
 ('sauce', 45),
 ('serve', 46),
 ('served', 47),
 ('suit', 48),
 ('tasty', 49),
 ('tender', 50),
 ('thickened', 51),
 ('tube', 52),
 ('type', 53),
 ('use', 54),
 ('used', 55),
 ('using', 56),
 ('usually', 57),
 ('vegetables', 58),
 ('wond

In [41]:
for word, vector in zip(data["preprocessed_descriptions"].to_list(), data["TfidfVectorizer"].to_list()):
    print(vector.shape)
    print(f"{word}\n{vector}\n{'-'*10}\n")

(1, 60)
from canadian living
[[0.         0.         0.         0.         0.70710678 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.70710678 0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.        ]]
----------

(1, 60)
delish and of course easy this is with ham and cheese but any combo could be used like pizza sauce mozzarella and pepperoni listed is using crescent rolls but can also use refrigerated tube of pizza dough and just use more filling
[[0.         0.         0.         0.         0.         0.19387833
  0.         0.19387833 0.         0.     

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [49]:
import scipy
import numpy as np
import itertools

In [50]:
max_pair = None
max_result = -1

In [51]:
coeff_dict = {}
vectorizer3 = TfidfVectorizer(analyzer="word", stop_words="english")
transform3 = vectorizer3.fit_transform(data["preprocessed_descriptions"].to_list())

all_data = list(zip(data["preprocessed_descriptions"].to_list(), transform3.toarray()))

for pair in itertools.product(all_data, repeat=2):
    
    text1, matrix1 = pair[0]
    text2, matrix2 = pair[1]
    result = scipy.spatial.distance.cosine(matrix1, matrix2)
    inverse_result = 1-result
    
    if text1 not in coeff_dict:
        coeff_dict[text1] = []
    coeff_dict[text1].append(inverse_result)
    

    if inverse_result > max_result and text1 != text2:
        max_result = inverse_result
        max_pair = (text1, text2)
    
    print(f"{text1}\n{text2}\n{inverse_result}\n")

from canadian living
from canadian living
1

from canadian living
delish and of course easy this is with ham and cheese but any combo could be used like pizza sauce mozzarella and pepperoni listed is using crescent rolls but can also use refrigerated tube of pizza dough and just use more filling
0.0

from canadian living
low fat healthy salad recipe
0.0

from canadian living
a khoreshe is a type of thickened sauce usually containing meat and vegetables that is served over rice this is one of my favorite persian dishes one i used to make for my friend said it is persian homestyle cooking at its best
0.0

from canadian living
this chicken is so wonderfully tender and tasty it just melts in your mouth we always serve one chicken breast between 2 people but of course you can adjust the recipe quantities to suit your appetite
0.0

delish and of course easy this is with ham and cheese but any combo could be used like pizza sauce mozzarella and pepperoni listed is using crescent rolls but can

In [52]:
df_final2 = pd.DataFrame.from_dict(coeff_dict)
df_final2.columns = data["preprocessed_descriptions"].to_list()
df_final2.index = data["preprocessed_descriptions"].to_list()
df_final2

Unnamed: 0,from canadian living,delish and of course easy this is with ham and cheese but any combo could be used like pizza sauce mozzarella and pepperoni listed is using crescent rolls but can also use refrigerated tube of pizza dough and just use more filling,low fat healthy salad recipe,a khoreshe is a type of thickened sauce usually containing meat and vegetables that is served over rice this is one of my favorite persian dishes one i used to make for my friend said it is persian homestyle cooking at its best,this chicken is so wonderfully tender and tasty it just melts in your mouth we always serve one chicken breast between 2 people but of course you can adjust the recipe quantities to suit your appetite
from canadian living,1.0,0.0,0.0,0.0,0.0
delish and of course easy this is with ham and cheese but any combo could be used like pizza sauce mozzarella and pepperoni listed is using crescent rolls but can also use refrigerated tube of pizza dough and just use more filling,0.0,1.0,0.0,0.053446,0.059569
low fat healthy salad recipe,0.0,0.0,1.0,0.0,0.071234
a khoreshe is a type of thickened sauce usually containing meat and vegetables that is served over rice this is one of my favorite persian dishes one i used to make for my friend said it is persian homestyle cooking at its best,0.0,0.053446,0.0,1.0,0.0
this chicken is so wonderfully tender and tasty it just melts in your mouth we always serve one chicken breast between 2 people but of course you can adjust the recipe quantities to suit your appetite,0.0,0.059569,0.071234,0.0,1.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [53]:
print(f"Из датасета выше больше всего совпадений в предложениях:\n\n{max_pair[0]}\n\n{max_pair[1]}\n\n{max_result}")

Из датасета выше больше всего совпадений в предложениях:

low fat healthy salad recipe

this chicken is so wonderfully tender and tasty it just melts in your mouth we always serve one chicken breast between 2 people but of course you can adjust the recipe quantities to suit your appetite

0.07123448328211968


In [54]:
set(max_pair[0].split(" ")) & set(max_pair[1].split(" "))

{'recipe'}