# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [1]:
!pip install scikit-learn
!pip install pymorphy2

from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance




[notice] A new release of pip available: 22.2.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip available: 22.2.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [2]:
s1 = "ПИ19-3"
s2 = "ПМ19-3"
edit_distance(s1, s2)

1

In [3]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [4]:
word = "велечайшим"
with open ("litw-win.txt", "r", encoding='windows-1251') as fp:
    words = [line.strip().split()[-1] for line in fp]
words[-5:]

['высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [5]:
min(words, key=lambda w: edit_distance(w, word))

'величайшим'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [6]:
!pip install nltk
from nltk.stem import SnowballStemmer
from nltk.tokenize import sent_tokenize, word_tokenize
import nltk
nltk.download('punkt')





[notice] A new release of pip available: 22.2.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Артём\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [7]:
stemmer = SnowballStemmer('russian')

for word in word_tokenize(text):
    result = stemmer.stem(word)
    print(result)

с
велечайш
усил
выбра
из
поток
убега
люд
кутуз
со
свит
уменьшевш
вдво
поеха
на
звук
выстрел
русск
оруд


In [8]:
morph = pymorphy2.MorphAnalyzer()
for word in word_tokenize(text):
    result = morph.parse(word)[0].normalized.word
    print(result)

с
велечайший
усилие
выбраться
из
поток
убегать
человек
кутузов
с
свита
уменьшевшийся
вдвое
поехать
на
звук
выстрел
русский
орудие


3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [9]:
text = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. '''
sents = sent_tokenize(text)
sents

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.']

In [10]:
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

sents_cv.shape

cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [11]:
import pandas as pd
from nltk.tokenize import word_tokenize

In [12]:
preprocessed_descriptions = pd.read_csv("preprocessed_descriptions.csv")

words_set = set()
words_list = list()
words = [word_tokenize(item) for item in preprocessed_descriptions["preprocessed_descriptions"].to_list() if isinstance(item, str)]

[[words_set.add(x) for x in item] for item in words]
[[words_list.append(x) for x in item] for item in words]
    
print(f"Весего {len(words_list)} слов\nСреди них {len(words_set)} уникальных")

Весего 1069254 слов
Среди них 32868 уникальных


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [13]:
import random
data = random.sample(list(words_set), 10)
for i in range(0,len(data),2):
    x, y = data[i], data[i+1]
    print(edit_distance(x, y), x, y)

7 orzo uncleour
8 stevia worthwhile
4 tables famie
7 flagrant owing
8 meatloaves goodplease


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [14]:
from typing import Set, List

def same_words(word: str, k: int, words_data: Set[str]) -> List[str]:
    """Функция для возврата k подобных слов для word из коллекции words_data"""
    buf_tuple = [(edit_distance(word, item), item) for item in words_data]
    buf_tuple.sort(key=lambda x: x[0])
    return buf_tuple[:k]

same_words("seedless", 11, words_set)

[(0, 'seedless'),
 (1, 'needless'),
 (2, 'needles'),
 (2, 'endless'),
 (3, 'meatless'),
 (3, 'settlers'),
 (3, 'restless'),
 (3, 'shellless'),
 (3, 'eggless'),
 (3, 'seekers'),
 (3, 'sinless')]

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [15]:
from nltk.stem import WordNetLemmatizer, SnowballStemmer
import nltk
nltk.download('wordnet')
lemmatizer = WordNetLemmatizer()
stemmer = SnowballStemmer('english')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Артём\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [16]:
words_df = pd.DataFrame(words_set)
words_df.columns = ['word']
words_df['stemmed_word'] = words_df.apply(lambda x: stemmer.stem(x["word"]), axis=1)
words_df['normalized_word'] = words_df.apply(lambda x: lemmatizer.lemmatize(x["word"], "v"), axis=1)
words_df[(words_df["word"] != words_df["normalized_word"]) & (words_df["stemmed_word"] != words_df["normalized_word"])]

Unnamed: 0,word,stemmed_word,normalized_word
8,intriguing,intrigu,intrigue
18,lost,lost,lose
21,symbolizes,symbol,symbolize
57,recognizing,recogn,recognize
65,dredged,dredg,dredge
...,...,...,...
32748,greased,greas,grease
32757,renaming,renam,rename
32801,sophisticated,sophist,sophisticate
32834,nabed,nabe,nab


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [17]:
import nltk
nltk.download('stopwords')

import nltk
from nltk.corpus import stopwords
stopwords_set = set(stopwords.words('english'))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Артём\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [18]:
words_filtered = [item for item in words_list if item not in stopwords_set]
diff = round(len(words_filtered)/len(words_list)*100,2)
print(f"Всего слов: {len(words_list)}\nС удалением стоп-слов: {len(words_filtered)}\nДоля стоп-слов: {diff}%")

Всего слов: 1069254
С удалением стоп-слов: 580889
Доля стоп-слов: 54.33%


#### До удаления

In [19]:
freq = nltk.FreqDist(words_list)
for word, number in freq.most_common(10):
    print(f"{number} -> {word}")

40072 -> the
34951 -> a
30245 -> and
26859 -> this
24836 -> i
23471 -> to
20285 -> is
19756 -> it
18364 -> of
15939 -> for


#### После удаления

In [20]:
freq = nltk.FreqDist(words_filtered)
for word, number in freq.most_common(10):
    print(f"{number} -> {word}")

14871 -> recipe
6326 -> make
5137 -> time
4620 -> use
4430 -> great
4167 -> like
4152 -> easy
3872 -> one
3810 -> made
3791 -> good


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer

# загрузка данных из файла
data = pd.read_csv('preprocessed_descriptions.csv')
data['preprocessed_descriptions']=data['preprocessed_descriptions'].apply(str)
# выбор 5 случайных рецептов
random_recipes = data.sample(5)

# создание объекта TfidfVectorizer
vectorizer = TfidfVectorizer()

# преобразование описания каждого рецепта в числовой вектор
for i, row in random_recipes.iterrows():
    description = row['preprocessed_descriptions']
    vector = vectorizer.fit_transform([description])
    print(f"Рецепт {i+1}:\n{description}\nВектор:\n{vector.toarray()}\n")

Рецепт 13941:
nan
Вектор:
[[1.]]

Рецепт 866:
a nice fruity cocktail
Вектор:
[[0.57735027 0.57735027 0.57735027]]

Рецепт 19554:
opa  evreryone is greek after a couple of these babies
Вектор:
[[0.33333333 0.33333333 0.33333333 0.33333333 0.33333333 0.33333333
  0.33333333 0.33333333 0.33333333]]

Рецепт 17637:
like my mojito but with amber rum found this on an austrailian sight made a little different then my version depaz amber rum is used in this
Вектор:
[[0.34299717 0.17149859 0.17149859 0.17149859 0.17149859 0.17149859
  0.17149859 0.17149859 0.17149859 0.17149859 0.17149859 0.17149859
  0.17149859 0.34299717 0.17149859 0.34299717 0.17149859 0.17149859
  0.34299717 0.17149859 0.17149859 0.17149859]]

Рецепт 1149:
simple simple simpletakes no time to prepare serve with your favorite potato casserole and a some coleslaw
Вектор:
[[0.23570226 0.23570226 0.23570226 0.23570226 0.23570226 0.23570226
  0.23570226 0.23570226 0.47140452 0.23570226 0.23570226 0.23570226
  0.23570226 0.2357022

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [25]:
import scipy
from sklearn.metrics.pairwise import cosine_distances

X = vectorizer.fit_transform(data['preprocessed_descriptions'])

# получаем матрицу векторов
matrix = X.toarray()

# вычисляем близость между каждой парой рецептов
distances = cosine_distances(matrix[random_recipes.index])

# формируем DataFrame с результатами
result_df = pd.DataFrame(distances, index=random_recipes.index, columns=random_recipes.index)
result_df.columns.name = 'Recipes'
result_df.index.name = 'Recipes'
result_df

Recipes,13940,865,19553,17636,1148
Recipes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
13940,0.0,1.0,1.0,1.0,1.0
865,1.0,0.0,1.0,1.0,1.0
19553,1.0,1.0,0.0,0.995179,1.0
17636,1.0,1.0,0.995179,0.0,0.993101
1148,1.0,1.0,1.0,0.993101,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [None]:
1074 и 16242