# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2
from nltk.metrics.distance import edit_distance

In [12]:
import pymorphy2

In [None]:
s1 = 'ПИ19-1'
s2 = 'ПИ19-1'
edit_distance(s1,s2)

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

In [None]:
# words = []
# with open('../09_string_2/data/litw-win.txt') as fp:
#     for line in fp:
#         words.append(line.strip().split()[-1])
        
# words[:5]

In [None]:
# word = 'велечайшим'
# min(words, key=lambda k: edit_distance(word,k))

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

In [None]:
from nltk.stem import SnowballStemmer

In [None]:
stemmer = SnowballStemmer('russian')
stemmer.stem('попрелагающимся')

In [None]:
mor = pymorphy2.MorphAnalyzer()
mor.parse('попрелагающимся')[0].normalized.word

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

In [None]:
from nltk import sent_tokenize

In [None]:
text = '''Считайте слова из файла litw-win.txt и запишите их в список words. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка words. Считайте, что в слове есть опечатка, если данное слово не содержится в списке words.'''
sent = sent_tokenize(text)
sent

In [None]:
cv = CountVectorizer()
cv.fit(sent)

In [None]:
sent_cv = cv.transform(sent).toarray()
sent_cv

In [None]:
sent_cv.shape

In [None]:
cv.vocabulary_

## Лабораторная работа 9

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [5]:
import nltk 
import pandas as pd
import re

In [6]:
p_descript = pd.read_csv('../08_string/result/preprocessed_descriptions.csv', sep=',', index_col=0)
p_descript

Unnamed: 0,name,preprocessed_description
0,love is in the air beef fondue sauces,i think a fondue is a very romantic casual din...
1,open sesame noodles,this is a very versatile and widely enjoyed pa...
2,say what banana sandwich,you just have to try it to believe it
3,1 in canada chocolate chip cookies,this is the recipe that we use at my school ca...
4,412 broccoli casserole,since there are already 411 recipes for brocco...
...,...,...
18805,zucchini cheddar casserole,this has been a long time family favorite
18806,zucchini courgette soup good for weight watc...,this is a favourite winter warmer by british c...
18807,zuppa by luisa,this soup is a hearty meal from luisa musso
18808,zurie s holey rustic olive and cheddar bread,this is based on a french recipe but i changed...


In [149]:
words = []
for row in p_descript['preprocessed_description']:
    new_words = []
    for i in nltk.word_tokenize(str(row)):
        i = re.sub("[.,:!? ]","",i)
        new_words.append(str(i))
    words.extend(new_words)
#     print(words)


words = list(set(words))
words

['bpa',
 'moistdense',
 'memories',
 'tomatoeshave',
 'complimentsca',
 'twolayer',
 'pearcider',
 'impart',
 'relation',
 'chin',
 'burnin',
 'california',
 'liquidy',
 'soupier',
 'borders',
 'tomatoesin',
 'deborah',
 'barley',
 'failed',
 'opor',
 'kits',
 'ancho',
 'copy',
 'nonwheat',
 'makeshift',
 'oamc',
 'daily',
 'circles',
 'participation',
 'binder',
 'viennese',
 'aperfectly',
 'tendersjust',
 'manjarblanco',
 'recipes4duhmmies',
 'halmonie',
 '2pound',
 'workable',
 'thickened',
 'winemmm',
 'concepts',
 'thaws',
 'wonderfulfully',
 'vines',
 'appetiser',
 'baklava',
 'microwaving',
 'feud',
 'dental',
 'attractiveness',
 'idiots',
 'bunch',
 'secondclass',
 'vietnamesethai',
 'pouches',
 'hamtramck',
 'pack',
 'newspaper',
 'addin',
 'cinnabon',
 'ventilated',
 'heatadd',
 'away',
 'cantaloupe',
 'crisped',
 'standin',
 'peasy',
 'behind',
 'restricted',
 'itguaranteed',
 'guesstimates',
 'claimed',
 'etc',
 'gruyre',
 'swaps',
 'outthe',
 'galestro',
 'enjoymakes',
 'h

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [150]:
import random
from nltk.metrics.distance import edit_distance

In [151]:
def f12():
    for i in range(5):
        a = random.choice(words)
        b = random.choice(words)
        dist = edit_distance(a,b)
        print(f"Слово 1: {a}\nСлово 2: {b}\nРасстояние редактирования {dist}\n")

In [152]:
f12()

Слово 1: 102854
Слово 2: boxes
Расстояние редактирования 6

Слово 1: soupbroth
Слово 2: adaptions
Расстояние редактирования 7

Слово 1: joes
Слово 2: chaat
Расстояние редактирования 5

Слово 1: man
Слово 2: feb2006
Расстояние редактирования 7

Слово 1: 509
Слово 2: delicates
Расстояние редактирования 9



1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [153]:
def f13(word, k):
    for i in range(len(words)):
        if edit_distance(word, words[i]) == 0:
            for j in range(k+1):
                print(words[i+j])

In [155]:
f13('like', 3)

like
elecrtic
stomach
ptsorzo


### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [156]:
from nltk.stem import SnowballStemmer, WordNetLemmatizer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/yanalazareva/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [157]:
stm = SnowballStemmer('english')
wnl = WordNetLemmatizer()
st = []
wn = []
for i in words:
    st.append(stm.stem(i))
    wn.append(wnl.lemmatize(i))
    
pd_words = pd.DataFrame({ 'word' : words, 'stemmed_word' : st, 'normalized_word' : wn})
pd_words = pd_words.set_index('word')
pd_words

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
bpa,bpa,bpa
moistdense,moistdens,moistdense
memories,memori,memory
tomatoeshave,tomatoeshav,tomatoeshave
complimentsca,complimentsca,complimentsca
...,...,...
longhornmama,longhornmama,longhornmama
burgandy,burgandi,burgandy
acheived,acheiv,acheived
flavor,flavor,flavor


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [158]:
from numba import njit
from nltk.corpus import stopwords
import copy

In [159]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/yanalazareva/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [166]:
words_before = []
words_after = []
words1 = copy.deepcopy(words)
for i in range(len(words1)):
    if words1[i].lower() in stopwords.words('english'):
        try:
            words1.remove(words1[i])
            words_before.append(words1[i-1])
            words_after.append(words1[i+1])
        except IndexError:
            pass

IndexError: list index out of range

In [161]:
words_before = nltk.FreqDist(words_before)
words_after = nltk.FreqDist(words_after)

In [162]:
words_after

FreqDist({'nava': 1, 'pefect': 1, 'cucina': 1, 'proven': 1, 'iceberg': 1, 'venison': 1, 'broccolini': 1, 'round': 1, 'definantly': 1, 'highestquality': 1, ...})

In [163]:
[idx for idx,val in words_before.most_common(10)]

['puto',
 'everana',
 'bozeman',
 'poarch',
 'whitewholewheatflour',
 'fishers',
 'range',
 'whichever',
 'crew',
 'decor']

In [164]:
[idx for idx,val in words_after.most_common(10)]

['nava',
 'pefect',
 'cucina',
 'proven',
 'iceberg',
 'venison',
 'broccolini',
 'round',
 'definantly',
 'highestquality']

### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [7]:
# 5 случайных рецептов
p_descripts_sample = p_descript.sample(n=5, random_state=1)

In [8]:
vectorizer = TfidfVectorizer()
matrix = vectorizer.fit_transform(p_descripts_sample.preprocessed_description).toarray()

In [9]:
matrix.shape

(5, 70)

In [10]:
for i in range(matrix.shape[0]):
    print(f'вектор {i+1} -> \n{matrix[i]}\n')

вектор 1 -> 
[0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.30499223 0.30499223 0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.30499223 0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.24606581 0.
 0.30499223 0.         0.         0.         0.         0.
 0.         0.30499223 0.         0.30499223 0.         0.
 0.         0.         0.         0.         0.         0.30499223
 0.         0.30499223 0.24606581 0.         0.         0.
 0.20425685 0.         0.         0.         0.         0.30499223
 0.         0.         0.         0.        ]

вектор 2 -> 
[0.         0.         0.         0.33333333 0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.33333333 0.         0.         0.         0.33333333 0.
 0.         0.         0. 

3.2 Вычислите близость между каждой парой рецептов, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [11]:
from scipy import spatial
from scipy.spatial import distance

In [15]:
cosine_distance = pd.DataFrame(p_descripts_sample.name)

In [16]:
cosine_matrix = [[distance.cosine(matrix[i], matrix[j]) 
                      for j in range(len(cosine_distance.name))] 
                         for i in range(len(cosine_distance.name))]

In [17]:
cosine_matrix[1]

[1.0, 0.0, 1.0, 1.0, 1.0]

In [18]:
count = 0
for name in cosine_distance.name:
    cosine_distance[name] = cosine_matrix[count]
    count += 1
    
cosine_distance.set_index('name', inplace=True)

cosine_distance

Unnamed: 0_level_0,cube steak skillet supper,breakfast cinnamon and apple squares,steak supper special,one rib for two,weetbix based chocolate slice
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
cube steak skillet supper,0.0,1.0,1.0,0.98079,0.878373
breakfast cinnamon and apple squares,1.0,0.0,1.0,1.0,1.0
steak supper special,1.0,1.0,0.0,0.959748,0.948016
one rib for two,0.98079,1.0,0.959748,0.0,0.816529
weetbix based chocolate slice,0.878373,1.0,0.948016,0.816529,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат

In [19]:
import numpy as np

In [20]:
# меньше косинус = больше схожеть строк
# но в таблице строка сравнивается сама с собой, поэтому убираем полное совпадение 0.0
match = min([(cosine_distance[i].nsmallest(2)).max() for i in cosine_distance.columns])
match

0.8165292749847445

In [21]:
# значений 2, т.к. у нас совпадение и столбец-строка, и строка-столбец (зеркально относительно диагонали)
i, j = np.where(cosine_distance.values == match)

In [22]:
# проверяем, что значения идентичны и можем к ним обращаться
cosine_distance.columns[j[::-1]] == cosine_distance.columns[i]

array([ True,  True])

In [24]:
p_descripts_sample.iloc[i[0]].preprocessed_description

'my kids dont like beef so i like making this for my husband and myself  we can have a nice roast beef dinner without leftovers its easy too prep time does not include the time it takes for the beef to freeze'

In [25]:
p_descripts_sample.iloc[j[0]].preprocessed_description

'lovely easy chocolate slice that the kids love is cheap to make and can be modified to be white or brown choc flavored yummy this is my kids favorite'

Итог: строки похожи на 1-0,8165 = 18% -> очень мало слов совпадает