# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [42]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

In [21]:
from nltk.tokenize import sent_tokenize, word_tokenize
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from nltk.stem import SnowballStemmer, WordNetLemmatizer
from nltk.corpus import stopwords
import pandas as pd
import itertools
from scipy.spatial import distance
import random
from nltk.metrics.distance import (
    edit_distance,
    edit_distance_align,
    binary_distance,
    jaccard_distance,
    masi_distance,
    interval_distance,
    custom_distance,
    presence,
    fractional_presence,
)

### Расстояние редактирования

1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [2]:
data = pd.read_csv('preprocessed_descriptions.csv')
b = [word_tokenize(str(i)) for i in data.preprocessed_descriptions]
b = set(itertools.chain(*b))

b

{'fromscratch',
 'recipesand',
 'ft',
 'hale',
 'appy',
 'southernfoodaboutcom',
 'creamyum',
 'soiled',
 'tom921',
 'simple',
 'deliciousgrandpas',
 'karo',
 'gasthaus',
 'recipe305332',
 'nonkosher',
 'my',
 'done',
 'onemeal',
 'meltinyour',
 'kid',
 'stalk',
 'deliciousnow',
 'ranted',
 'foodsfrom',
 'for',
 'preseasoned',
 'homs',
 'sprinkling',
 'louis',
 'japalenos',
 'budgetbytescom',
 'bowtie',
 'cilantrommmmm',
 'oktober',
 'diffrent',
 'attending',
 'softandcakelike',
 'sante',
 'spinning',
 'jumper',
 'nonimbibers',
 'robinhood',
 'serbian',
 'alos',
 'trishas',
 '191156',
 'wherever',
 'dried',
 'citys',
 'loveit',
 'cookiebar',
 'viande',
 'odor',
 'committed',
 'mine',
 'yams',
 'vessels',
 'trabant',
 'shortcakegosh',
 'march',
 'wearing',
 'nabo',
 'recipeland',
 'peshawar',
 'gaapril',
 'housetimes',
 'montanadakota',
 'stovetop',
 'nazis',
 'schoolthey',
 'bergstrom',
 'luncheon',
 'halve',
 'bakethen',
 'dosha',
 'clayton',
 'brushing',
 'louisianastyle',
 'organics

1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [27]:
b = list(b)
[edit_distance(*[random.choice(b), random.choice(b)]) for i in range(5)]

[8, 15, 7, 9, 5]

1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [33]:
from operator import itemgetter

def distance(word, k, words):
    
    d = {i: edit_distance(word, i) for i in words}
    d = sorted(d, key=d.get)
    return itemgetter(*range(1, k+1))(d)

distance('ricard', 5, b)

('ricardo', 'richard', 'rican', 'richards', 'reward')

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [48]:
snb_stemmer = SnowballStemmer('english')
lemmat = WordNetLemmatizer()

l = [lemmat.lemmatize(i) for i in b]
s = [snb_stemmer.stem(i) for i in b]

df = pd.DataFrame({'word': b,
     'stemmed_word': s,
     'normalized_word': l
    })
df = df.set_index('word')
df

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
3kg,3kg,3kg
pep,pep,pep
strohecker,stroheck,strohecker
brilliantly,brilliant,brilliantly
aseptic,asept,aseptic
...,...,...
seem,seem,seem
wwwdomesticgoddesscom,wwwdomesticgoddesscom,wwwdomesticgoddesscom
deciphered,deciph,deciphered
potaoes,potao,potaoes


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [67]:
data2 = [[i for i in str(j).split(' ') if i not in stopwords.words('english')] 
 for j in data.preprocessed_descriptions]

In [82]:
t1 = [word_tokenize(str(i)) for i in data.preprocessed_descriptions]
t1 = list(itertools.chain(*t1))
t2 = list(itertools.chain(*data2))

1 - len(t2) / len(t1)

0.4317312139159494

In [86]:
from collections import Counter

c1 = Counter()
for i in t1:
    c1[i] += 1

c2 = Counter()
for i in t2:
    c2[i] += 1
    
c1 = sorted(c1, key=c1.get, reverse=True)
c2 = sorted(c2, key=c2.get, reverse=True)

print(itemgetter(*range(0, 10))(c1))
print(itemgetter(*range(1, 11))(c2))

('the', 'a', 'and', 'this', 'i', 'to', 'is', 'it', 'of', 'for')
('recipe', 'make', 'time', 'use', 'great', 'like', 'easy', 'one', 'made', 'good')


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [23]:
a1 = data.sample(5, random_state=12)

tv = TfidfVectorizer()
corpus_tv = tv.fit_transform(a1.preprocessed_descriptions)

tv_ar = corpus_tv.toarray()
tv_ar

array([[0.14510157, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.14510157, 0.        ,
        0.        , 0.09717621, 0.14510157, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.14510157, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.14510157,
        0.14510157, 0.        , 0.14510157, 0.        , 0.        ,
        0.        , 0.08174769, 0.        , 0.09717621, 0.        ,
        0.29020314, 0.14510157, 0.14510157, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.14510157, 0.        , 0.14510157, 0.  

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [41]:
cos = []
count = 0
df2 = pd.DataFrame(columns=a1.name.values, index=a1.name.values)

for i in tv_ar:
    for j in tv_ar:
        cos.append(distance.cosine(i, j))
    df2.iloc[:, count] = cos
    cos = []
    count += 1

In [42]:
df2

Unnamed: 0,jell o ribbon salad,jean s quick chili,festive sangria,grilled chicken breasts with heirloom tomatoes,garlic lovers easy peasy chickpea dip
jell o ribbon salad,0.0,0.875756,0.86457,0.95701,0.811729
jean s quick chili,0.875756,0.0,0.871109,0.978016,0.8553
festive sangria,0.86457,0.871109,0.0,1.0,0.844611
grilled chicken breasts with heirloom tomatoes,0.95701,0.978016,1.0,0.0,0.935941
garlic lovers easy peasy chickpea dip,0.811729,0.8553,0.844611,0.935941,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

In [44]:
# Наиболее похожими рецептами являются 
#'garlic lovers easy peasy chickpea dip' и 'jell o ribbon salad'.