# Введение в обработку текста на естественном языке

Материалы:
* Макрушин С.В. Лекция 9: Введение в обработку текста на естественном языке\
* https://realpython.com/nltk-nlp-python/
* https://scikit-learn.org/stable/modules/feature_extraction.html

## Задачи для совместного разбора

In [42]:
from sklearn.feature_extraction.text import CountVectorizer
import pymorphy2

1. Считайте слова из файла `litw-win.txt` и запишите их в список `words`. В заданном предложении исправьте все опечатки, заменив слова с опечатками на ближайшие (в смысле расстояния Левенштейна) к ним слова из списка `words`. Считайте, что в слове есть опечатка, если данное слово не содержится в списке `words`. 

In [None]:
text = '''с велечайшим усилием выбравшись из потока убегающих людей Кутузов со свитой уменьшевшейся вдвое поехал на звуки выстрелов русских орудий'''

2. Разбейте текст из формулировки задания 1 на слова; проведите стемминг и лемматизацию слов.

3. Преобразуйте предложения из формулировки задания 1 в векторы при помощи `CountVectorizer`.

## Лабораторная работа 9

### Расстояние редактирования

In [3]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download("stopwords")

from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize as w_tok
from nltk.metrics import *
from nltk.stem import SnowballStemmer
from nltk import FreqDist
from nltk.corpus import stopwords

import pandas as pd
import random


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\224977\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\224977\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\224977\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\224977\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


1.1 Загрузите предобработанные описания рецептов из файла `preprocessed_descriptions.csv`. Получите набор уникальных слов `words`, содержащихся в текстах описаний рецептов (воспользуйтесь `word_tokenize` из `nltk`). 

In [4]:
recipes = pd.read_csv('recipes_sample.csv', delimiter=',').dropna()
words = []
for description in recipes.description.values:
    words += w_tok(description)
words2 = [w for w in words if w.isalpha()]
f_ex = list(set(words2))
f_ex

['foose',
 'wether',
 'persian',
 'subbed',
 'collins',
 'family',
 'checkoslavakia',
 'cold',
 'wowwee',
 'christians',
 'eyebrow',
 'thinly',
 'addictive',
 'focal',
 'increased',
 'principle',
 'ming',
 'vij',
 'touch',
 'plump',
 'tori',
 'bragging',
 'span',
 'evie',
 'armondo',
 'justifiably',
 'mrbreakfast',
 'zarians',
 'breadstick',
 'screw',
 'claire',
 'slathered',
 'daily',
 'halve',
 'sax',
 'gâche',
 'regarding',
 'contribution',
 'roquefort',
 'tortellini',
 'nison',
 'diagonally',
 'erickson',
 'opaque',
 'spatula',
 'toasst',
 'meatloaves',
 'backed',
 'dunes',
 'ww',
 'heck',
 'hoping',
 'bagel',
 'overdue',
 'roughage',
 'souper',
 'flew',
 'supporting',
 'younguns',
 'treats',
 'stefado',
 'fmaily',
 'chez',
 'cheescake',
 'comfort',
 'homestead',
 'ranch',
 'presenting',
 'nobu',
 'metric',
 'tasmanian',
 'since',
 'circulating',
 'overabundance',
 'souls',
 'parenthesis',
 'casse',
 'mountains',
 'essen',
 'when',
 'cooling',
 'route',
 'disregard',
 'jalapeños',


1.2 Сгенерируйте 5 пар случайно выбранных слов и посчитайте между ними расстояние редактирования.

In [5]:
for _ in range(5):
    w1, w2  = random.sample(words, 2)
    distance = edit_distance(w1, w2)
    print(f"Расстояние между {w1} и {w2} : {distance}")

Расстояние между for и hit : 3
Расстояние между : и fat : 3
Расстояние между a и has : 2
Расстояние между before и one : 4
Расстояние между favorite и , : 8


1.3 Напишите функцию, которая для заданного слова `word` возвращает `k` ближайших к нему слов из списка `words` (близость слов измеряется с помощью расстояния Левенштейна)

In [6]:
def closest(word, words,k):
    descriptions = {w: edit_distance(word, w) for w in words}
    return sorted(descriptions, key = descriptions.get )[:k]
closest('lemma', words,5)    

['emma', 'lem', 'lemon', 'leta', 'klemm']

### Стемминг, лемматизация

2.1 На основе результатов 1.1 создайте `pd.DataFrame` со столбцами: 
    * word
    * stemmed_word 
    * normalized_word 

Столбец `word` укажите в качестве индекса. 

Для стемминга воспользуйтесь `SnowballStemmer`, для нормализации слов - `WordNetLemmatizer`. Сравните результаты стемминга и лемматизации.

In [7]:
snb_stemmer_eng = SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()
dic = {'word': f_ex, 'stemmed_word': [snb_stemmer_eng.stem(word) for word in f_ex],
                   'normalized_word': [lemmatizer.lemmatize(word) for word in f_ex ]}
dt = pd.DataFrame(dic).set_index('word')
dt[:15]

Unnamed: 0_level_0,stemmed_word,normalized_word
word,Unnamed: 1_level_1,Unnamed: 2_level_1
foose,foos,foose
wether,wether,wether
persian,persian,persian
subbed,sub,subbed
collins,collin,collins
family,famili,family
checkoslavakia,checkoslavakia,checkoslavakia
cold,cold,cold
wowwee,wowwe,wowwee
christians,christian,christian


2.2. Удалите стоп-слова из описаний рецептов. Какую долю об общего количества слов составляли стоп-слова? Сравните топ-10 самых часто употребляемых слов до и после удаления стоп-слов.

In [8]:
stops = set(stopwords.words('english'))

top_before = FreqDist(words2).most_common(10) 

lst_no_stop = [w for w in words2 if w.lower() not in stops ] 
top_after = FreqDist(lst_no_stop).most_common(10)

stop_procent = (len([w for w in words2 if w.lower() in stops])/len(words2))*100

print('До удаления стоп-слов:' ,top_before ,'После: ', top_after, 'Доля стоп-слов от общего кол-ва: ', stop_procent, sep='\n\n')

До удаления стоп-слов:

[('the', 17817), ('a', 15494), ('and', 13464), ('i', 12317), ('this', 12003), ('it', 10407), ('to', 10403), ('is', 9106), ('of', 8061), ('for', 6986)]

После: 

[('recipe', 6656), ('make', 2789), ('time', 2379), ('use', 2052), ('great', 2027), ('easy', 1853), ('like', 1812), ('one', 1758), ('made', 1679), ('good', 1671)]

Доля стоп-слов от общего кол-ва: 

47.401612962021844


### Векторное представление текста

3.1 Выберите случайным образом 5 рецептов из набора данных. Представьте описание каждого рецепта в виде числового вектора при помощи `TfidfVectorizer`

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [9]:
random_5 = recipes.sample(n=5)

tv = TfidfVectorizer()
corpus = random_5.description.values
corpus_tv = tv.fit_transform(corpus)

for i, recipe in enumerate(random_5.name):
    print(f"Nazvanie рецепта : {recipe}\n")
    print(f'Векторное представление :\n {corpus_tv.toarray()[i]}\n')


Nazvanie рецепта : triple sec salmon

Векторное представление :
 [0.         0.         0.         0.         0.19595145 0.19595145
 0.13123097 0.         0.19595145 0.         0.         0.
 0.         0.         0.31618479 0.         0.         0.
 0.         0.19595145 0.         0.3919029  0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.19595145 0.         0.         0.
 0.         0.19595145 0.         0.         0.         0.
 0.         0.19595145 0.         0.         0.         0.
 0.         0.         0.13123097 0.         0.         0.
 0.         0.         0.         0.19595145 0.19595145 0.
 0.         0.19595145 0.19595145 0.         0.         0.
 0.         0.         0.         0.11039563 0.         0.
 0.         0.19595145 0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.18674383 0.         0.19595145 0.         0.         0.
 0.11039563 0.         0.         0.      

3.2 Вычислите близость между каждой парой рецептов, выбранных в задании 3.1, используя косинусное расстояние (`scipy.spatial.distance.cosine`) Результаты оформите в виде таблицы `pd.DataFrame`. В качестве названий строк и столбцов используйте названия рецептов.

In [52]:
import itertools as itl
from scipy.spatial.distance import cosine

corpus2 = corpus_tv.toarray()
dt_empty = pd.DataFrame(index=random_5.name)

glued_corp = list(itl.chain.from_iterable([corpus2]) )  # corpus2 - список списков
products = list(itl.product(glued_corp, repeat=2)) # Создаем пары векторов рецептов

cos_distance = list(itl.starmap(cosine, products))

end = 0
for name_col in random_5.name:
    dt_empty[name_col] = cos_distance[end:end+5]
    end+=5

dt_empty 

# Чем больше cos, и  
# меньше косинусное расстояние (1-cos), тем более схожи векторы

Unnamed: 0_level_0,triple sec salmon,cajun string green beans,warm bacon dressing for spinach salad,pumpkin pie a la easy,irregular green bean casserole
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
triple sec salmon,0.0,0.958257,0.932698,0.869822,0.897939
cajun string green beans,0.958257,0.0,0.95135,0.90209,0.884339
warm bacon dressing for spinach salad,0.932698,0.95135,0.0,0.837673,0.89781
pumpkin pie a la easy,0.869822,0.90209,0.837673,0.0,0.870822
irregular green bean casserole,0.897939,0.884339,0.89781,0.870822,0.0


3.3 Какие рецепты являются наиболее похожими? Прокомментируйте результат (словами).

Чем меньше косинусное расстояние между двумя векторами(рецептами), тем более похожими они являются. Если не брать в расчет рецепты с растоянием 0, самыми похожими друг на друга рецептами являются "warm bacon dressing for spinach salad" и "pumpkin pie a la easy" с растоянием - 0.837673
