# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [38]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.metrics.distance import edit_distance
from nltk.stem import SnowballStemmer, WordNetLemmatizer
from nltk import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
import pymorphy2
import pandas as pd
import random
import operator
import nltk
from typing import Set, List

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [3]:
s1 = "ПИ19-3"
s2 = "ПМ19-3"
edit_distance(s1,s2)

1

In [4]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [5]:
word = 'велечайшим'
with open ("data2\litw-win.txt") as fp:
    words = [line.strip().split()[-1] for line in fp]
words[-5:]

['высокопревосходительства',
 'попреблагорассмотрительст',
 'попреблагорассмотрительствующемуся',
 'убегающих',
 'уменьшившейся']

In [6]:
min(words, key=lambda w: edit_distance(w,word))

'величайшим'

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [7]:
stemmer = SnowballStemmer('english')
word = 'underrated'
stemmer.stem(word)

'underr'

In [8]:
morph = pymorphy2.MorphAnalyzer()
morph.parse(word)[0].normalized.word

'underrated'

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [9]:
text = '''Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.'''
sents = sent_tokenize(text)
sents

['Считайте слова из файла `litw-win.txt` и запишите их в список `words`.',
 'В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`.',
 'Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`.']

In [10]:
cv = CountVectorizer()
cv.fit(sents)
sents_cv = cv.transform(sents).toarray()
sents_cv

array([[1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1,
        1, 1, 2, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
        0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1]], dtype=int64)

In [11]:
sents_cv.shape

(3, 35)

In [12]:
cv.vocabulary_

{'считайте': 32,
 'слова': 24,
 'из': 12,
 'файла': 33,
 'litw': 0,
 'win': 2,
 'txt': 1,
 'запишите': 11,
 'их': 14,
 'список': 31,
 'words': 3,
 'заданном': 9,
 'предложении': 22,
 'исправьте': 13,
 'все': 5,
 'опечатки': 21,
 'заменив': 10,
 'опечатками': 20,
 'на': 16,
 'ближайшие': 4,
 'смысле': 27,
 'расстояния': 23,
 'левенштейна': 15,
 'ним': 18,
 'списка': 29,
 'что': 34,
 'слове': 25,
 'есть': 8,
 'опечатка': 19,
 'если': 7,
 'данное': 6,
 'слово': 26,
 'не': 17,
 'содержится': 28,
 'списке': 30}

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [33]:
data = pd.read_csv("data2/preprocessed_descriptions.csv")['preprocessed_descriptions'].to_list()
data_DF = pd.read_csv("data2/preprocessed_descriptions.csv")['preprocessed_descriptions']
pre_words = [word_tokenize(i) for i in data if isinstance(i,str)]
x = len(pre_words[0])
y = len(pre_words)
words = []
words_with_doubles = []
for i in range(y):
    for j in pre_words[i]:
        words_with_doubles.append(j)
        if j not in words:
            words.append(j)

words


['an',
 'original',
 'recipe',
 'created',
 'by',
 'chef',
 'scott',
 'meskan',
 'georges',
 'at',
 'the',
 'cove',
 'we',
 'enjoyed',
 'this',
 'when',
 'visited',
 'restaurant',
 'in',
 'la',
 'jolla',
 'california',
 'is',
 'requested',
 'so',
 'often',
 'they',
 'have',
 'it',
 'printed',
 'and',
 'ready',
 'hostess',
 'stand',
 'its',
 'unbeatable',
 'but',
 'i',
 'do',
 'a',
 'pretty',
 'good',
 'job',
 'home',
 'too',
 'if',
 'say',
 'myself',
 'my',
 'children',
 'their',
 'friends',
 'ask',
 'for',
 'homemade',
 'popsicles',
 'morning',
 'noon',
 'night',
 'never',
 'turn',
 'them',
 'down',
 'who',
 'am',
 'to',
 'tell',
 'that',
 'are',
 'variety',
 'substitute',
 'different',
 'flavours',
 'of',
 'frozen',
 'juice',
 'grape',
 'fruit',
 'punch',
 'tropical',
 'etc',
 'these',
 'were',
 'go',
 'surprised',
 'even',
 'me',
 'sisterinlaw',
 'made',
 'us',
 'family',
 'get',
 'together',
 'delicious',
 'little',
 'messy',
 'make',
 'worth',
 'effort',
 'helper',
 'think',
 'fon

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [14]:
random_words = [random.choice(words) for i in range(6)]
for i in range(len(random_words)-1):
    print(f"{random_words[i]}/{random_words[i+1]}/{edit_distance(random_words[i],random_words[i+1])}")
    

recommend/jean/7
jean/fabulousfoodscom/16
fabulousfoodscom/fould/12
fould/christmasnew/12
christmasnew/judicious/10


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [31]:
def closest_words(word: str, k: int, words: Set[str]) -> List[str]:
    buf_tuple = [(edit_distance(word, item), item) for item in words]
    buf_tuple.sort(key=lambda x: x[0])
    return buf_tuple[:k]

closest_words('test',3,words)

[(0, 'test'), (1, 'best'), (1, 'rest')]

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для лемматизации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [16]:
stemmer = SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()

stemmed_word = [stemmer.stem(i) for i in words]
normalized_word = [lemmatizer.lemmatize(i) for i in words]

words_frame = pd.DataFrame({'word':words,
                            'stemmed_word':stemmed_word, 
                            'normalized_word':normalized_word})
words_frame

Unnamed: 0,word,stemmed_word,normalized_word
0,an,an,an
1,original,origin,original
2,recipe,recip,recipe
3,created,creat,created
4,by,by,by
5,chef,chef,chef
6,scott,scott,scott
7,meskan,meskan,meskan
8,georges,georg,george
9,at,at,at


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [18]:
stops = set(stopwords.words('english'))
words_without_stops = [i for i in words_with_doubles if i not in stops]

print(f"Количество слов в отзывах со стоп-словами : {len(words_with_doubles)}\nКоличество слов в отзывах без стоп-слов: {len(words_without_stops)}\nЧасть стоп-слов : {(len(words_with_doubles) - len(words_without_stops))/len(words_with_doubles)}")

Количество слов в отзывах со стоп-словами : 1069254
Количество слов в отзывах без стоп-слов: 580889
Часть стоп-слов : 0.4567343213118679


In [23]:
freq = nltk.FreqDist(words_with_doubles)
for word, count in freq.most_common(10):
    print(f"{word} : {count}")

the : 40072
a : 34951
and : 30245
this : 26859
i : 24836
to : 23471
is : 20285
it : 19756
of : 18364
for : 15939


In [24]:
freq = nltk.FreqDist(words_without_stops)
for word, count in freq.most_common(10):
    print(f"{word} : {count}")

recipe : 14871
make : 6326
time : 5137
use : 4620
great : 4430
like : 4167
easy : 4152
one : 3872
made : 3810
good : 3791


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [45]:
vectorizer = TfidfVectorizer()

for i in range(5):
    text = [random.choice(data)]
    vectorizer.fit(text)
    print(vectorizer.vocabulary_)
    print(vectorizer.idf_)
    vector = vectorizer.transform([text[0]])
    print(vector.shape)
    print(f"{vector.toarray()}\n")

{'these': 22, 'are': 1, 'kid': 11, 'favorite': 5, 'recipe': 19, 'we': 25, 'cant': 3, 'have': 10, 'bbq': 2, 'without': 26, 'the': 21, 'kids': 12, 'looking': 13, 'for': 6, 'my': 16, 'mom': 14, 'must': 15, 'gotten': 8, 'this': 23, 'from': 7, 'pillsbury': 18, 'source': 20, 'years': 27, 'ago': 0, 'grew': 9, 'up': 24, 'on': 17, 'cookie': 4}
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1.]
(1, 28)
[[0.16439899 0.16439899 0.16439899 0.16439899 0.16439899 0.16439899
  0.16439899 0.16439899 0.16439899 0.16439899 0.32879797 0.16439899
  0.16439899 0.16439899 0.16439899 0.16439899 0.16439899 0.16439899
  0.16439899 0.16439899 0.16439899 0.16439899 0.32879797 0.32879797
  0.16439899 0.16439899 0.16439899 0.16439899]]

{'saw': 54, 'couple': 16, 'other': 45, 'recipes': 49, 'for': 24, 'rainbow': 48, 'cake': 9, 'already': 2, 'in': 31, 'the': 64, 'system': 61, 'but': 8, 'didnt': 17, 'see': 55, 'any': 4, 'that': 63, 'were': 73, 'done': 20, 'quite': 47, 'same': 53, 's

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).